Nutch 强大的全文索引与网络爬虫框架

释放双眼,带上耳机,听听看~!

从官网 http://nutch.apache.org/ 上能看到Nutch做的越来越好了,最后更新版本是 v1.9 于 2014年8月16日发布,可见该框架的活跃度和开发受欢迎度还是很大的。

废话不多说,主要特点高扩展性和高伸缩性,主要可以看到,它能和哪些东东一起使用吧。顺便要讲一句:

Nutch分为两个版本,1.x和2.x。1.x最新版本为1.9,2.x最新版本为2.2.1。两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStore等NoSQL

下面来看下官方Tutorial

Nutch 1.X tutorial(s)

Nutch 2.X tutorial(s)

我们这里主要研究MySQL的使用

环境Ubuntu10 DeskTop + MySQL+Nutch2.x

版权声明:本文为博主原创文章,未经博主允许不得转载。

给TA打赏
共{{data.count}}人
人已打赏
安全经验

职场中的那些话那些事

2021-9-24 20:41:29

安全经验

rpc和rest的区别

2021-11-28 16:36:11

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索