网络爬虫的安全性问题

发布时间：2023-06-06 12:19:40 所属栏目：安全来源：

导读：　　由于网络爬虫的策略是尽可能多的“爬过”网站中的高价值信息，会根据特定策略尽可能多的访问页面，占用网络带宽并增加Web服务器的处理开销，不少小型站点的站长发现当网络爬虫光顾的时候，访问流量将会

　　由于网络爬虫的策略是尽可能多的“爬过”网站中的高价值信息，会根据特定策略尽可能多的访问页面，占用网络带宽并增加Web服务器的处理开销，不少小型站点的站长发现当网络爬虫光顾的时候，访问流量将会有明显的增长。恶意用户可以利用爬虫程序对Web站点发动DoS攻击，使Web服务在大量爬虫程序的暴力访问下，资源耗尽而不能提供正常服务。恶意用户还可能通过网络爬虫抓取各种敏感资料用于不正当用途，主要表现在以下几个方面：

　　1)搜索目录列表
　　互联网中的许多Web服务器在客户端请求该站点中某个没有默认页面的目录时，会返回一个目录列表。该目录列表通常包括可供用户点击的目录和文件链接，通过这些链接可以访问下一层目录及当前目录中的文件。因而通过抓取目录列表，恶意用户往往可以获取大量有用的资料，包括站点的目录结构、敏感文件以及Web服务器设计架构及配置信息等等，比如程序使用的配置文件、日志文件、密码文件、数据库文件等，都有可能被网络爬虫抓取。这些信息可以作为挑选攻击目标或者直接入侵站点的重要资料。

　　2)搜索测试页面、手册文档、样本程序及可能存在的缺陷程序
　　大多数Web服务器软件附带了测试页面、帮助文档、样本程序及调试用后门程序等。这些文件往往会泄漏大量的系统信息，甚至提供绕过认证直接访问Web服务数据的方法，成为恶意用户分析攻击Web服务器的有效情报来源。而且这些文件的存在本身也暗示网站中存在潜在的安全漏洞。

　　3)搜索管理员登录页面
　　许多网络产品提供了基于Web的管理接口，允许管理员在互联网中对其进行远程管理与控制。如果管理员疏于防范，没有修改网络产品默认的管理员名称及密码，一旦管理员登录页面被恶意用户搜索到，网络安全将面临极大的威胁。

　　4)搜索互联网用户的个人资料
　　互联网用户的个人资料包括姓名、身份证号、电话、Email地址、QQ号、通信地址等个人信息，恶意用户获取后容易利用社会工程学实施攻击或诈骗。

　　因此，采取适当的措施限制网络爬虫的访问权限，向网络爬虫开放网站希望推广的页面，屏蔽比较敏感的页面，对于保持网站的安全运行、保护用户的隐私是极其重要的。

　　基于网络爬虫技术的Web漏洞扫描

　　前面提到的网络爬虫对网站的间接安全威胁，是通过对网络站点的信息收集为不法份子的非法访问、攻击或诈骗作准备。随着安全技术的发展，利用网络爬虫技术对Web漏洞的直接探测已经出现，这会直接影响到Web服务器的安全。Web服务器漏洞中，跨站脚本(Cross Site Script)漏洞与SQL注入(SQL Injection)漏洞所占比例很高，这两种漏洞均可以通过对网络爬虫的改进来进行探测。由于缺乏足够的安全知识，相当多的程序员在编写Web应用程序时对网页的请求内容缺乏足够的检查，使得不少Web应用程序存在安全隐患。用户可以通过提交一段精心构造的包含SQL语句或脚本的URL请求，根据程序的返回结果获得有关的敏感信息，甚至直接修改后台数据。基于目前的安全现状，网络爬虫技术在Web漏洞扫描上的应用，大大提高了发现漏洞的效率。

　　基于网络爬虫技术的Web漏洞扫描大致分为如下过程：

　　1)页面过滤：通过自动化的程序抓取网站页面，这些HTML标签中包含URL信息，便于恶意用户进行更深入的Web访问或提交操作。
2)URL匹配：对Web页面中的URL进行自动匹配，提取由参数组合而成的动态查询URL或提交URL，进行下一步的漏洞探测。如动态查询URL“http://baike.xxxx.com/searchword/?word=frameset&pic=1”，其中 frameset为URL中动态的参数部分，可以进行参数变换。提交URL用于把Web用户的输入提交到服务器进行处理，其参数多为用户输入，同样可以进行参数变换。
　　3)漏洞试探：根据动态查询URL或提交URL，自动在参数部分进行参数变换，插入引号、分号(SQL注如对其敏感)及script标签(XSS对其敏感)等操作进行试探，并根据Web服务器返回的结果自动判断是否存在漏洞。如“URL匹配”中的动态查询URL可以变换成http://baike.xxxx.com/searchword/?word= &pic=1进行跨站脚本漏洞探测。

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!