转载请注明出处:http://www.voidcn.com/article/p-dxoltvql-bkz.html
http://www.llwjy.com/blogdetail/a2d1df2b69f17696865f086777996fb1.html
个人博客站已经上线了,网址 www.llwjy.com 欢迎各位吐槽
之前的博客,已经介绍了如何基于Lucene来开发站内搜索的大部分内容,剩下的就是一些业务逻辑部分的开发以及接口的定义,这一部分在数据采集介绍完毕之后再来介绍。如果你已经对网络爬虫已经相当熟悉,可以忽略之后的几篇博客~
在之前的博客《基于HttpClient实现网络爬虫~以百度新闻为例》对自己的爬虫底层实现以及如何分析网页结构,抓取网页内容做了部分介绍,对之前介绍过的内容就不再过多介绍了,下面就重点说一下最新底层更新情况。
CrawlBase
在之前的CrawlBase类中,自己是这样定义HttpClient的,这样带来的后果就是在多线程的情况下会出现一系列的问题,所以对HttpClient的定义做了如下修改:
修改前:
1
2 1private static HttpClient httpClient = new HttpClient();
2
1
2 1修改后:
2
1
2
3 1private static MultiThreadedHttpConnectionManager httpConnectionManager = new MultiThreadedHttpConnectionManager();
2private static HttpClient httpClient = new HttpClient(httpConnectionManager);
3
同时还支持手动输入网址含有中文,通过CrawlListPageBase类获取的下一跳的网址是不会出现该问题的。具体的修改是对URL做一次处理,具体方法如下:
1
2
3
4
5
6
7
8
9 1private String encodeUrlCh(String url) {
2 try {
3 return DoRegex.encodeUrlCh(url);
4 } catch (UnsupportedEncodingException e) {
5 e.printStackTrace();
6 return url;
7 }
8}
9
其他应该没有太多的修改,最新的CrawlBase类还请访问 http://www.llwjy.com/source/com.lulei.crawl.CrawlBase.html
**ps:**要获取个人最新java源代码,请访问http://www.llwjy.com/source.html,只需要在输入框内输入引用的类,即可检索出最新源码,比如:输入 com.lulei.crawl.CrawlBase 即可查看 CrawlBase 类的相信信息。
CrawlListPageBase
CrawlListPageBase类是自己对更新列表这一类的网页做的一次封装,从网页中只获取下一跳的网址。下面就按照纵横中文小说网站的实际情况来介绍如何使用CrawlListPageBase类来实现更新列表页信息的获取。
访问纵横中文网,可以很容易的就找到免费小说的更新列表页,网址:http://book.zongheng.com/store/c0/c0/b9/u0/p1/v0/s9/t0/ALL.html ,对页面做简单的分析即可发现下图中的内容就是最新更新的小说书目列表。
通过鼠标右键–查看网页源代码 不难找到这些数据在网页中的位置,如下图:
而红色框出来的内容就是我们需要的下一跳网址,因此我们可以很简单的确定获取该信息的正则表达式是 :
<a class="fs14" href="(.*?)" ,因此我们需要创建CrawlListPageBase的一个子类UpdateList,让它来完成纵横免费小说更新列表页信息的采集,对CrawlListPageBase类中的抽象方法做具体的实现,如下:
1
2
3
4
5
6
7
8
9
10 1@Override
2public String getUrlRegexString() {
3 return "<a class=\"fs14\" href=\"(.*?)\"";
4}
5
6@Override
7public int getUrlRegexStringNum() {
8 return 1;
9}
10
1
2 1 用HttpClient 模拟浏览器的行为,需要对请求做一点伪装,由于纵横的防爬虫策略做的并不是太好,所以只需要做Referer和User-Agent即可,具体如下:
2
1
2
3
4
5
6
7
8
9
10 1private static HashMap<String, String> params;
2/**
3 * 添加相关头信息,对请求进行伪装
4 */
5static {
6 params = new HashMap<String, String>();
7 params.put("Referer", "http://book.zongheng.com");
8 params.put("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36");
9}
10
1
2 1 在添加构造方法时,只需要使用params即可,如下:
2
1
2
3
4 1public UpdateList(String urlStr) throws IOException {
2 super(urlStr, "utf-8", params);
3}
4
1
2 1 这样UpdateList子类计算完成了,使用getPageUrls()方法即可获取页面内我们需要的链接。
2
经过众多数据的测试,这时候你不难发现,纵横中文网的更新列表上的数目并不是全部来自纵横中文网,还有其他的站,因此需要对这些数据做简单的过滤,代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14 1public List<String> getPageUrls(boolean exceptOther){
2 List<String> urls = getPageUrls();
3 if (exceptOther) {
4 List<String> exceptUrls = new ArrayList<String>();
5 for (String url : urls) {
6 if (url.indexOf("zongheng") > 0) {
7 exceptUrls.add(url);
8 }
9 }
10 return exceptUrls;
11 }
12 return urls;
13}
14
1
2 1 我们使用上述方法代替之前说的那个方法即可选择是否舍弃这些网址,在这个项目中,我们选择舍弃。经过上述步骤,纵横中文的更新列表页的采集模版就完成了。
2
运行结果
源代码
最新源代码可以访问:http://www.llwjy.com/source/com.lulei.crawl.novel.zongheng.UpdateList.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69 1 /**
2 *@Description: 更新列表页
3 */
4package com.lulei.crawl.novel.zongheng;
5
6import java.io.IOException;
7import java.util.ArrayList;
8import java.util.HashMap;
9import java.util.List;
10
11import com.lulei.crawl.CrawlListPageBase;
12
13public class UpdateList extends CrawlListPageBase{
14
15 private static HashMap<String, String> params;
16 /**
17 * 添加相关头信息,对请求进行伪装
18 */
19 static {
20 params = new HashMap<String, String>();
21 params.put("Referer", "http://book.zongheng.com");
22 params.put("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36");
23 }
24
25 public UpdateList(String urlStr) throws IOException {
26 super(urlStr, "utf-8", params);
27 }
28
29
30 @Override
31 public String getUrlRegexString() {
32 return "<a class=\"fs14\" href=\"(.*?)\"";
33 }
34
35 @Override
36 public int getUrlRegexStringNum() {
37 return 1;
38 }
39
40 /**
41 * @param exceptOther
42 * @return
43 * @Author:lulei
44 * @Description: 是否排除非纵横的书籍
45 */
46 public List<String> getPageUrls(boolean exceptOther){
47 List<String> urls = getPageUrls();
48 if (exceptOther) {
49 List<String> exceptUrls = new ArrayList<String>();
50 for (String url : urls) {
51 if (url.indexOf("zongheng") > 0) {
52 exceptUrls.add(url);
53 }
54 }
55 return exceptUrls;
56 }
57 return urls;
58 }
59
60 public static void main(String[] args) throws IOException {
61 // TODO Auto-generated method stub
62 UpdateList updateList = new UpdateList("http://book.zongheng.com/store/c0/c0/b9/u0/p1/v0/s9/t0/ALL.html");
63 for (String s : updateList.getPageUrls(true)) {
64 System.out.println(s);
65 }
66 }
67}
68
69
1
2 1 ----------------------------------------------------------------------------------------------------
2
ps:最近发现其他网站可能会对博客转载,上面并没有源链接,如想查看更多关于 基于lucene的案例开发 请点击这里。或访问网址http://blog.csdn.net/xiaojimanman/article/category/2841877