如何应对爬虫的安全威胁

发布时间：2023-06-06 12:22:14 所属栏目：安全来源：

导读： 由于网络爬虫带来的安全威胁，不少网站的管理人员都在考虑对爬虫访问进行限制甚至拒绝爬虫访问。实际上，根据网站内容的安全性及敏感性，区别对待爬虫是比较理想的措施。网站的URL组织应该根据是否适合大范围

由于网络爬虫带来的安全威胁，不少网站的管理人员都在考虑对爬虫访问进行限制甚至拒绝爬虫访问。实际上，根据网站内容的安全性及敏感性，区别对待爬虫是比较理想的措施。网站的URL组织应该根据是否适合大范围公开，设置不同的URL路径，在同一Web页面中既有需要完全公开信息也有敏感信息时,应通过链接、标签嵌入网页等方式显示敏感内容，另外尽可能把静态页面等经评估安全性较高的页面与安全性较差的动态页面从URL上分开。当限制爬虫时可以针对URL路径的安全性与敏感性对不同种类的爬虫与代理进行限制。

　　限制爬虫可以通过以下几种方法实现：

　　1) 设置robots.txt文件
　　限制爬虫最简单的方法是设置robots.txt文件。robots.txt文件是搜索引擎爬虫访问网站的时候要查看的第一个文件，它告诉爬虫程序在服务器上什么文件是可以被查看的，如果设置Disallow: /，则表示所有的路径均不能查看。遗憾的是并不是所有的搜索引擎爬虫会遵守这个规则，因此仅仅设置robots文件是不够的。

　　2) User Agent识别与限制
　　要对不理会robots.txt文件的爬虫访问进行限制，首先要把爬虫流量与普通用户的访问流量进行区分，即对其进行识别。一般的爬虫程序都可以通过其HTTP请求中的User Agent字段进行识别，该字段使服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。爬虫的User Agent字段一般与浏览器的有所不同，如Google搜索引擎爬虫User Agent字段中会有类似Googlebot的字符串，如User-Agent: Googlebot/2.1 ( http://www.google.com/bot.html)，百度搜索引擎爬虫则会有类似Baiduspider的字符串。不少Web服务器软件如Apache，可以设置通过User Agent字段进行访问过滤，可以比较有效的限制大部分爬虫的访问。

　　3) 通过访问行为特征识别与限制
　　对于在HTTP请求的User Agent字段刻意伪装成浏览器的爬虫，可以通过其访问行为特征进行识别。爬虫程序的访问一般是有规律性的，频率比较高，区别于真实用户浏览时的随意性与低频率。对这类爬虫的限制原理与DDoS攻击的防御原理很相似，都基于统计数据。对于这类爬虫的限制只能通过应用识别设备、IPS等能够深度识别的网络设备来实现。用网络设备限制网络爬虫，不仅比较全面，而且非常适合在多服务器的情况下进行统一的管理，避免多服务器单独管理有可能造成的疏漏。

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!