从官网 http://nutch.apache.org/ 上能看到Nutch做的越来越好了,最后更新版本是 v1.9 于 2014年8月16日发布,可见该框架的活跃度和开发受欢迎度还是很大的。
废话不多说,主要特点高扩展性和高伸缩性,主要可以看到,它能和哪些东东一起使用吧。顺便要讲一句:
Nutch分为两个版本,1.x和2.x。1.x最新版本为1.9,2.x最新版本为2.2.1。两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStore等NoSQL
下面来看下官方Tutorial
Nutch 1.X tutorial(s)
-
NutchTutorial – How to configure Nutch to crawl in local mode and post to Apache Solr for search/index.
-
QuickStartparseChecker – Quick start tutorial on how to use the ParseChecker tool to quickly scrape a website.
Nutch 2.X tutorial(s)
-
Nutch2Tutorial — How to get Nutch 2.X to use HBase as persistence layer for Gora
-
Setting up Nutch 2.0 with MySQL to handle UTF-8 – A step-by-step tutorial
-
Accumulo, Nutch, and Gora – A step-by-step tutorial
-
Setting up Nutch 2.x with Cassandra – How to setup and run Nutch 2.x using Cassandra as storage.
我们这里主要研究MySQL的使用
环境Ubuntu10 DeskTop + MySQL+Nutch2.x
版权声明:本文为博主原创文章,未经博主允许不得转载。