https://github.com/emyller/webkitcrawler 一个开源的项目,可以快速入门。
链接地址关于爬虫的一个坛子,主要
是Java开源组件Heritrix,nutch爬虫的源码剖析
摘 要: 以AJAX技术为代表的Web应用新技术的出现,赋予了JavaScript更加丰富的功能。但也导致更多的URL以数据形式存在于JavaScript代码中,给网络爬虫的URL提取带来了新的挑战。为了解决这一问题,在此提出了一种基于WebKit的网络爬虫,以WebKit作为爬虫的前端来解析并执行JavaScript。一是实现JavaScript对网页DOM的修改,从而将存在于此类代码中的URL转换成HTML形式并以静态分析方法来提取;二是定位JavaScript页面导航的代码并且劫持输入导航方法及对象的变量以提取变量中的URL。这充分降低了客户端脚本给爬虫带来的障碍,从而更好地提取网页中的URL。
关键词: 网络爬虫; 浏览器引擎; WebKit; JavaScript
0 引 言
随着各种形式的互联网应用不断出现,互联网正在显著改变着人类的生活方式,互联网应用已经成为了一部分人类生活中不可或缺的一部分。互联网规模的不断扩大,互联网上的信息也呈几何倍数增长。如何快速准确地找到所需要的信息就成了一个难题,而网络爬虫正是解决这个问题的关键。在网络爬虫的众多应用场景中,最典型的例子就是搜索引擎。而在备受关注的Web应用安全领域,网络爬虫也是不可或缺的一部分。
网络爬虫是一个按照一定逻辑扫描或者“爬行”网页的程序或者脚本。工作流程一般是根据设定的初始URL(统一资源定位符)从网络上获取相应的内容,从这些内容中抽取出需要的信息以及URL,随后以新抽取的URL为基础重复之前的工作。网络爬虫的目的并不是单纯的“爬行”,而是为更高层次的目的所服务。比如搜索引擎所使用的爬虫在爬行的过程中会根据关键字协助搜索引擎建立索引,而黑盒Web应用漏洞扫描工具所使用的爬虫在工作时会将发现的Web应用入口记录并提交给漏洞检测模块进行检测。所以网络爬虫的工作效果将直接决定这些工作的效果。
为了解决JavaScript执行问题,本文提出了一种基于WebKit的网络爬虫。在网络爬虫中引入浏览器引擎,使得网络爬虫可以执行JavaScript并对网页进行渲染,获取网页在浏览器上呈现给用户的结果,从而在之后的分析中提取到更多的URL。
1 WebKit分析
浏览器引擎,是浏览器
的核心部分,也称浏览器内核,负责对网页语法的解释(如HTML,JavaScript)并渲染网页。主流的浏览器引擎包括Trident,Gecko,Presto以及WebKit。Trident是微软Internet Explorer的浏览器引擎的名称,主要使用者有IE和世界之窗浏览器。Gecko是由Mozilla基金会开发的浏览器引擎的名字,主要代表是Firefox。Presto是一个由Opera Software开发的浏览器引擎,供Opera 7.0及以上使用。Webkit是一款开源的浏览器引擎[9],目前使用WebKit引擎的浏览器主要有苹果Safari、谷歌Chrome、遨游浏览器以及360极速浏览器。
使用WebKit引擎的浏览器都是以速度著称的浏览器,这说明了WebKit相对与其他浏览器引擎的最大优势是速度。这正是选择在网络爬虫中使用WebKit的原因。因为网络爬虫抓取网页的速度是制约网络爬虫速度的瓶颈。WebKit的核心主要由2个模块组成:WebCore和JavaScriptCore,其代码起源于自由软件社区KDE的HTML 排版引擎KHTML及JavaScript引擎KJS的代码。这两个模块将完成HTML解析、JavaScript解析以及网页布局和渲染三部分工作。
WebCore主要组成部分如表1所示。
2 方案设计
网络爬虫总体上分为4个模块:网页获取模块、网页渲染模块、URL抽取模块以及URL队列管理模块。总体方案设计如图1所示。网页获取模块的功能是通过网络接口向服务器发起请求并获取服务器的响应,即获取URL对应文档的源代码。网页渲染模块的功能是解析源代码中的HTML和JavaScript,并运行JavaScript代码对网页进行渲染,即获取浏览器呈现给用户的网页形式,但是仍然是以HTML的形式存储的。URL抽取模块的功能是分析经过渲染的HTML代码,从中抽取出新的URL,并将新的URL放入链接队列中。链接抽取模块分成2个子模块:HTMLParser和JSParser。HTMLParser通过HTML语法分析和正则表达式提取URL。JSParser则对JavaScript进行进一步的处理[如果只是简单的小部分数据爬取这里其实也可以直接模拟执行用户的动作来得到这些URL]。这是由于JavaScript中可能包含引起页面跳转的语句,比如window对象的open方法,location对象的href属性和replace方法等。这些语
句当中包含有URL,但是不会引起网页DOM结构的变化,所以网页渲染模块不能使它们显现在HTML中,还需要进一步分析JavaScript以提取这些URL。URL队列管理模块的功能是管理URL队列,负责决定下一个爬行的URL,并决定哪些新发现的URL需要放入队列中。
3 运行测试
4 结 语
本文设计并实现了一种基于WebKit浏览器引擎的网络爬虫,较好地实现了网页中的JavaScript代码对网页的渲染,从而提升了网络爬虫的URL提取能力,可以有效提高搜索引擎和Web应用漏洞扫描程序的覆盖率。目前在处理用户触发的JavaScript代码(如onclick事件)方面还有所欠缺,这将是下一步的研究目标。