使用webmagic搭建一个简单的爬虫

释放双眼，带上耳机，听听看~！

刚刚接触爬虫，听说webmagic很不错，于是就了解了一下。

webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。

这句话说的真的一点都不假，像我这样什么都不懂的人直接下载部署，看了看可以调用的方法，马上就写出了第一个爬虫小程序。

以下是我学习的过程：

首先需要下载jar：http://webmagic.io/download.html

部署好后就建一个class继承PageProcessor接口，重写process()方法，即可完成一个爬虫。

是不是很简单？

先上代码，再讲解吧。


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
1import us.codecraft.webmagic.Page;

2import us.codecraft.webmagic.Site;

3import us.codecraft.webmagic.Spider;

4import us.codecraft.webmagic.processor.PageProcessor;

5

6public class MyProcessor implements PageProcessor {

7   // 抓取网站的相关配置，包括编码、抓取间隔、重试次数等

8   private Site site = Site.me().setRetryTimes(3).setSleepTime(100);

9    private static int count =0;

10  

11  @Override

12  public Site getSite() {

13      return site;

14  }

15

16  @Override

17  public void process(Page page) {

18        //判断链接是否符合http://www.cnblogs.com/任意个数字字母-/p/7个数字.html格式

19      if(!page.getUrl().regex(&quot;http://www.cnblogs.com/[a-z 0-9 -]+/p/[0-9]{7}.html&quot;).match()){

20          //加入满足条件的链接

21          page.addTargetRequests(

22                  page.getHtml().xpath(&quot;//*[@id=\&quot;post_list\&quot;]/div/div[@class=&#x27;post_item_body&#x27;]/h3/a/@href&quot;).all());

23      }else{                              

24          //获取页面需要的内容

25          System.out.println(&quot;抓取的内容：&quot;+

26                  page.getHtml().xpath(&quot;//*[@id=\&quot;Header1_HeaderTitle\&quot;]/text()&quot;).get()

27                  );

28          count ++;

29      }

30  }

31

32  public static void main(String[] args) {

33      long startTime, endTime;

34      System.out.println(&quot;开始爬取...&quot;);

35        startTime = System.currentTimeMillis();

36      Spider.create(new MyProcessor()).addUrl(&quot;https://www.cnblogs.com/&quot;).thread(5).run();

37      endTime = System.currentTimeMillis();

38      System.out.println(&quot;爬取结束，耗时约&quot; + ((endTime - startTime) / 1000) + &quot;秒，抓取了&quot;+count+&quot;条记录&quot;);

39  }

40

41}

42

43