拦截网络爬虫流量技术的应用研究全球最新

来源：清一色财经时间：2023-05-26 18:08:10

网络中的大部分流量来自于网络爬虫，互联网中的搜索引擎就是最大的网络爬虫。在大数据之下，深层挖掘数据价值是一个很有价值的课题，但是在此之前，获取数据这一步也是至关重要的。网络爬虫制作简单，而且大多数为了效率不会尊重网站的服务条款，高速的爬取会占用过多的服务器资源，因此需要一些方法来划分来自网络中的流量，并且拦截网络爬虫。本文将会对一些现有的网络爬虫拦截技术进行综合叙述。

一、Headers头部校验

网络爬虫的本质是对网络请求的模拟。脚本要发送请求，就需要构造请求头部，这个请求头部通常被称为Headers。Headers头部校验指的是服务器对HTTP请求报文中请求头键值对的检测。检测的键值对主要有三个：

(资料图片仅供参考)

(1) User-Agent：检测请求者的用户代理，此项缺失则判定为机器人。

(2) Referer：检测请求者是否以正常途径跳转到本页面，常用于防盗链技术。

(3) Cookie：检测请求者身份状态，在需要登录才能访问的网站通常需要携带。

要应对这类Headers头部检测非常容易，只需要在使用浏览器访问页面后进行抓包观察，大多数情况下直接复制请求头中的内容即可。值得注意的是，在需要登录才能访问的页面，其中的Cookie是有时效性的，需要及时更新。在一些安全防护较好的网站，Headers头部中也会额外加入一些本地JS运行后计算出的加密参数。

二、IP地址记录

对于IP地址的记录，主要是针对恶意爬虫，防止其在短时间内大量发起HTTP请求访问网站，造成网站资源的侵占。这种反爬虫手段原理就是检测异常访问用户，如果有请求在短时间（例如3秒）内连续访问网站高达数十次，则会进行IP记录，将其判定为机器人，在该IP地址的HTTP请求再次发来的时候，服务器就回复状态码403 Forbidden，禁止该请求的继续访问，这种防护手段的优点很明显，缺陷也很明显，那就是一刀切容易误伤人类用户。

此种反爬虫手段的应对需要爬虫开发者尽量减缓HTTP请求间隔，以求达到和正常人类访问页面相似的速度，避免被算法检测。或者可以建立IP代理池，也可以购买代理商IP，如图1所示：

图1快代理IP页面

在进行HTTP请求的时候使用代理IP访问，本地IP就会被隐藏在代理之后，即便被算法检测，也只需要更换新的IP地址。

三、Ajax异步加载

Ajax（Asynchronous JS And XML，异步JS和XML）是一种创建交互式网页应用的网页开发技术，简单来说，就是在浏览一个界面的时候，URL地址本身没有发生改变，页面内容却发生了动态更新，如图2所示，网页端里百度图片的瀑布流加载即使用了Ajax。

图2 百度图片抓包

这个时候，直接使用GET请求去获取页面内容是定位不到具体内容的，因为它的获取一般是经由数据接口进行返回的。

严格来说，这并不算是一种反爬虫技术，但是运用Ajax之后，爬虫开发者需要在网络请求包中去自行选择数据包才可以，而不是可以简单通过GET页面源代码来编写爬虫。面对此类技术，只需要进行网页抓包，在大量的数据包中寻找到真正包含网页内容的数据接口即可。因为数据如果要渲染到页面，就一定会有数据包将其传输到客户端，开发者要做的只是将它找出来。一般而言，此类技术进行数据传输返回的结果都是JSON格式的，所以需要用JSON包进行数据解析。

四、字体反爬虫

不同于一般的反爬虫思路，字体反爬虫主要在数据上做手脚。要获取的网页数据在浏览器中可以正常查看，但是在将其复制到本地后就会得到乱码。它的原理是网站自己自定义创造了一套字体，构建映射关系后将其添加到了css的font中，在浏览器中查看的时候，网站会自动获取这些文件，从而建立对应关系映射得到字符。而爬虫开发者在编写网络爬虫的时候，往往只会请求网页的URL地址，这就造成了映射文件的空缺，没有字符集能够解析这些字符，导致乱码问题。如图3所示，实习僧网页端使用了自定制的字体文件。

图3 实习僧字体反爬虫

字体反爬虫的突破有两种方法，第一种方法是找到font文件的URL请求地址，将其下载到本地后使用xml解析工具解析出来，然后就可以根据其中的字符对应关系，建立本地映射进行字符替换。第二种方法是直接手动复制其中的加密字符，在本地通过encode编码后得到对应编码，建立自己的本地映射字典，然后进行字符爬取替换。之所以可以使用第二种方法，是因为字体反爬虫的加密字符通常不会很多，大多是对阿拉伯数字和部分网站常用汉字进行加密，所以可以直接人工复制进行编码映射。

五、验证码反爬虫

如今的互联网恶意爬虫横行，上述的反爬虫手段虽然可行，但是被恶意爬虫突破也很容易。为了应对这种情况就诞生了验证码，从最开始的英数验证码到如今的图片点选验证码，验证码技术在不断更新迭代，未来也会出现更多类型的验证码。验证码的防护主要在两个阶段，第一个阶段是登录注册阶段，第二个阶段是访问页面阶段，前者是为了将恶意爬虫拦在门外，让人类用户进入，后者是为了清理那些突破了登录注册阶段，进入页面爬取的恶意爬虫，如果服务器检测到某IP地址在短时间内大量访问，不会直接封禁用户，而是出现验证码，这样就避免了对用户的误伤，不是一刀切，更加人性化。如果是人类用户自然可以通过这些点选识别的验证码，但如果是机器人就很难突破这第二道关卡，如图4所示的图片点选验证码。

图4 图片点选验证码

这类反爬虫手段的应对主要是对接各大验证码识别平台或者是通过训练深度学习神经网络模型，让模型帮助爬虫程序过掉验证码。而且如今深度学习框架盛行，训练模型早已不是难事，单纯的验证码识别已经拦不住搭配了深度学习模型的网络爬虫，所以网站开发者会在验证码识别背后再加上较复杂的JS参数加密，即便验证码被识别，也很难构造出最终的加密结果来，这样就提高了破解门槛。不过使用特殊的测试工具，例如selenium，可以直接搭配训练模型模拟人类行为过掉验证码，免去破解JS加密参数的烦恼。不过自动化的测试工具存在着明显的特征，个别网站会在JS文件中添加对自动化软件特征的识别，从而拒绝服务。

六、JavaScript参数加密

JavaScript（以下简称JS）参数加密常见于POST表单提交的情形里，主要是为了防范恶意机器人批量注册与模拟登录等行为。如果对POST表单进行抓包的话，会发现自己在表单里输入的数据被加密为了不可知的字符串，这主要是通过加载网站的本地JS脚本实现的。

对于这类反爬虫的应对，除了熟悉调试技巧外，还需要读者有较扎实的JS语言基础，因为此类加密的破解通常需要开发者能够读懂目标网站的JS加密脚本，并进行一系列的删改操作，用静态分析逐步从庞大的JS脚本中将具体的加密函数“扣”出来，在本地模拟运行得到加密结果，再通过POST发包将参数进行传递才能得到正常反馈，因此它能够阻挡大量技术力较低的恶意爬虫。

这类反爬虫手段的破解手段主要分两种：

（1）简单的加密直接使用Python语言进行复现。

（2）较复杂一些的加密可以将具体函数“扣”出来，组成加密脚本后模拟运行。同时还要对一些浏览器指纹检测进行模拟。

七、JS反调试

JS参数加密对于熟悉JS语言的开发者来说，防范的门槛并不高。所以为了从源头上断绝开发者对网站加密文件的分析，就诞生了JS反调试。

最简单的方法是通过禁止用户右击以及按F12等快捷键实现的，对于这种简单的防护只需要修改对应快捷键，或者在新窗口中打开开发者工具再切换回原页面即可。

较难一些的主要是通过检测用户是否打开了浏览器开发者工具或者是否修改了本地JS脚本文件，从而判断是否进行无限循环debugger的卡顿，让开发者无法进行脚本调试。这种反爬虫的破解需要熟悉JS Hook相关知识，因为检测控制台状态和脚本文件状态的源代码是大同小异的，可以通过编写Chrome拓展插件自动Hook反调试代码并进行函数替换，从而过掉检测让开发者能够进行静态分析。

八、AST混淆反爬虫

从理论上来说，任何反爬虫手段都无法阻止爬虫的进入，因为如果一个网站想要有用户流量，必然不会设置太高的门槛导致正常用户也无法访问。只要开发者的网络爬虫尽可能地模拟人类访问网站的情形，就能够进入网站肆意横行。

不过虽然无法根绝网络爬虫的进入，却可以提高网络爬虫进入的门槛，将网站的损失降到最低。在所有的反爬虫防护手段中，JS参数加密的防护效果是比较出色的，它能将大多数低技术力的爬虫开发者挡在门外。现在的网站即便是使用了验证码防护，其背后的HTTP请求传输也会使用JS对验证码参数进行加密，它虽然没办法完全阻止爬虫的进入，却能让爬虫开发者耗费大量时间在破解上，这是一种成本低廉却效果非凡的手段，如果网站的加密脚本经常更换的话，即便是再老练的爬虫开发者也会疲于奔命，因此如何加大JS脚本的破解难度是一个关键点。

常见的防止开发者调试JS脚本文件的方法无非禁止右击和禁止打开开发者工具，或者使用JS代码进行检测，但这些方法都存在着通杀通用的解决方案，因为它们的防护等级并不算高，只要熟练使用搜索引擎就可以过掉。要想在JS脚本防护上尽可能延长被爬虫破解的时间，最好的方法就是使用AST抽象语法树对JS脚本代码进行高度混淆，将其转化生成为不可阅读且不可识别，却可以正常运作的乱码文件。如图5所示，经过混淆的JS代码的可读性已经大大下降，这进一步增大了JS逆向的难度。

图5 经过混淆的JS代码

九、总结

反爬虫技术并不能够根绝网络爬虫，这是必然的。网站的前端加密文件是任何用户都可以随意读取的，网站的存在是以真实用户的流量为依托的，如今的网络爬虫技术飞速发展，几乎能够达到以假乱真的状态。即便是检查JS文件是否真实运行在浏览器当中，爬虫开发者也可以在脚本文件中模拟对应的对象原型。但不论怎么说，爬虫和反爬虫的对抗，一方面提高了爬虫的门槛，强化了企业的安全意识，另一方面，又促进了爬虫技术的发展。

参考文献

[1]Ma Xiaoju,Yan Min. Design and Implementation of Craweper Based on Scrapy[J]. Journal of Physics: Conference Series,2021,2033(1).

[2]Deng Kaiying,Chen Senpeng,Deng Jingwei. On optimisation of web crawler system on Scrapy framework[J]. International Journal of Wireless and Mobile Computing,2020,18(4).

[3]Wang Wei,Yu Lihua. UCrawler: A learning-based web crawler using a URL knowledge base[J]. Journal of Computational Methods in Sciences and Engineering,2021,21(2).

[4]Tianyi Ma,Ziyang Zhang. Medical Consultation System based on Python Web crawler[C]//.Proceedings of 2021 2nd International Conference on Electronics, Communications and Information Technology (CECIT 2021).,2021:772-776.DOI:10.26914/c.cnkihy.2021.065511.

[5]Addo Prince Clement,Dorgbefu Jnr. Maxwell,Kulbo Nora Bakabbey,Akpatsa Samuel Kofi,Ohemeng Asare Andy,Dagadu Joshua Caleb,Boansi Kufuor Oliver,Kofi Frimpong Adasa Nkrumah. Video Ads in Digital Marketing and Sales: A Big Data Analytics Using Scrapy Web Crawler Mining Technique[J]. Asian Journal of Research in Computer Science,2021.

我想买房小品剧本（我想买房）|全球通讯

<< 上一篇

最后一页

下一篇 >>

X 关闭

太阳能

中国煤炭工业协会：全国煤炭供应保障能力大幅增加

2022-07-05 15:46:17
黄河源头玛多县突降大雪民警抗雪保畅

2022-02-14 15:26:32
西藏林芝救护一只闯入民居被困雪豹

2022-02-14 15:26:30
中国煤炭工业协会：全国煤炭供应保障能力大幅增加

2022-07-05 15:46:17
广西德保设立“黄码医院” 为全域内红、黄码人员就医开通“绿色通道”

2022-02-14 15:26:33
广西百色：12日共核酸采样3849118人次

2022-02-14 15:26:33
新疆开都河呈现冰裂景观镜面翡翠镶嵌河面

2022-02-14 15:26:32
黄河源头玛多县突降大雪民警抗雪保畅

2022-02-14 15:26:32
秦皇岛山区留守儿童寒假见闻：年味不“淡” 关爱不“断”

2022-02-14 15:26:32
拦截网络爬虫流量技术的应用研究全球最新

2023-05-26 18:08:10
我想买房小品剧本（我想买房）|全球通讯

2023-05-26 16:52:25
当前速递！对症出招“实打实” 望城经开区开展“走基层、找问题、想办法、促发展”工业平台企业调研走访

2023-05-26 15:57:13
法尔克：赖斯是拜仁中场引援首选目标，西汉姆要价1.15亿欧元环球头条

2023-05-26 14:53:57
卤鸡腿饭教学视频（卤鸡腿饭）

2023-05-26 14:29:35
深圳人才安居集团10亿元超短期融资券将兑付利率2.31%

2023-05-26 13:45:20
PC才是索尼PS发表会的最大赢家只有一个游戏例外

2023-05-26 12:26:38
惠誉发出评级警告美债僵局如何收场

2023-05-26 12:23:06
当前看点!星河战队灭绝大型虫子有什么特点

2023-05-26 11:29:01
全球微资讯！今日上市：亚华电子、宁新新材

2023-05-26 10:40:03
环球最资讯丨为缓解“用工荒” 美国多州“积极考虑”放宽童工法律限制

2023-05-26 10:02:23
美国研究表明：约10%的奥密克戎感染者有“长新冠”症状

2023-05-26 09:05:06
天天快看点丨王者荣耀排位战力上限-王者荣耀段位战力上限

2023-05-26 08:14:03
A股申购 | 西山科技(688576.SH)开启申购专注外科手术医疗器械

2023-05-26 07:15:48
美联储降息概率下降让巴克莱和高盛的交易策略大获其利

2023-05-26 06:25:10
风水寻龙脉图_风水寻龙点穴卫星图-观察

2023-05-26 05:48:42
一级建造师报名时间2022年报名（一级建造师报名）-热点评

2023-05-26 04:31:46
电动车闯红灯撞轿车谁的责任

2023-05-26 03:37:56
每日热门：2023年兰州市事业单位公开招聘入围面试人员名单确定

2023-05-26 02:58:04
全球热点！仰望u8发布7种颜色可供选择，尾部造型方正

2023-05-26 02:19:51
深圳政府补贴创业申请和深圳创业补贴能补多少？全球快讯

2023-05-26 01:17:18
chanel是什么意思_chanel是什么意思_热议

2023-05-26 00:09:25
阿里巴巴-SW(09988)：网传裁员为谣言今年预估新招15000人

2023-05-25 23:25:06
魏都区四项措施促行政诉讼案件“双下降” 世界快消息

2023-05-25 22:47:34
王导：黄金1980/1961/1958空暴跌，反弹继续空|环球快播报

2023-05-25 22:12:09
陕西省首条氢燃料电池全自动生产线开工|全球观焦点

2023-05-25 20:52:44
俄外交部就“北溪”管道爆炸调查召见德国、丹麦与瑞典驻俄大使_焦点速讯

2023-05-25 21:02:50
爱心人寿偿付能力继续下降，新里程健康拟再增资3亿

2023-05-25 20:22:04
中铁十局、北控城服联合拿下超13亿山东龙口城市服务项目！

2023-05-25 18:43:33
焦点简讯:已办理容缺换证的驾驶人注意了！6月30日前补交身体条件证明

2023-05-25 18:55:04
提新车要注意什么要怎样验车（4s店新车验车流程及注意事项）-天天资讯

2023-05-25 17:07:13
世界热点！武汉一小学生校内被撞身亡：涉事教师刑拘校长免职

2023-05-25 16:35:49
沪指探底回升、险守3200点北向资金净卖出近百亿元-要闻速递

2023-05-25 16:06:24
鹰潭到南昌要核酸检测吗-全球快看

2023-05-25 14:57:33
定焦世界新动态

2023-05-25 14:03:55
滚动：阿里纳斯谈安东尼退役铁定进名人堂但不会退役球衣

2023-05-25 13:51:18
2023年环青海湖自行车赛7月开赛

2023-05-25 12:48:17
2000元人民币在缅甸就是42万！在缅甸能做些什么？当地导游告诉你-焦点观察

2023-05-25 12:07:17
南宁老房子拍卖涨价

2023-05-25 11:23:18
石狮召开执法监督专项工作座谈会

2023-05-25 10:04:50
6月22日发售！《最终幻想16》发布全新预告片

2023-05-25 09:38:20
俄罗斯别尔哥罗德州在与乌克兰接壤地区建立七个国土防御营

2023-05-25 09:07:14
小米：4月正式组建AI实验室大模型团队

2023-05-25 08:26:17
热讯：鹿肉怎么做最好吃家常做法-鹿肉怎么做最好吃

2023-05-25 07:24:25
地铁救人的“最美妈妈”找到了-焦点短讯

2023-05-25 06:16:42
孓孑孓孒怎么读_撰去掉提手旁怎么读

2023-05-25 05:16:28
莫文(关于莫文的简介)|热文

2023-05-25 04:30:04
高收益债策略周报2023年第19期：房地产销售数据有所回落高收益债净价指数波动上涨

2023-05-25 03:45:59
人流后同房出血了怎么办_人流二十天后可以戴套同房吗环球快看

2023-05-25 02:52:56
全球速递！如何查找ip地址和mac地址_如何查找ip地址

2023-05-25 01:36:05