一只简单的网络爬虫（基于linux C/C++）————Url处理以及使用libevent进行DNS解析

释放双眼，带上耳机，听听看~！

Url处理

爬虫里使用了两个数据结构来管理Url
下面的这个数据结构用来维护原始的Url，同时有一个原始Url的队列


1
2
3
4
5
6
7
8
1//维护url原始字符串

2typedef struct Surl {

3    char  *url;

4    int    level;//url抓取深度

5    int    type;//抓取类型

6} Surl;

7

8

原始的Url队列static queue <Surl *> surl_queue;//这个队列存放解析前的
下面的Url结构体用来维护解析后的url，同样的，配有一个url的队列


1
2
3
4
5
6
7
8
9
1//解析后的

2typedef struct Url {

3    char *domain;//域名

4    char *path;//路径

5    int  port;//端口

6    char *ip;//IP

7    int  level;//深度

8} Url;

9

解析后的url队列static queue<Url *> ourl_queue;//这个队列存放DNS解析后的
另外，采用一个map容器用来保存域名解析前后的url的主机名称和ip地址


1
2
1static map&lt;string, string&gt; host_ip_map;//主机，ip的map容器

2

采用这样的方式的原因是，DNS解析是一个比较浪费时间的过程，解析过的主机名我们将其与ip地址采用map关联起来，因为同一个html页面里可能会有多个url是同一个主机名的，这样一来我们可以直接在map容器中查找该主机名对应的ip，而不必每次都进行DNS解析，这样做可以达到提高效率的效果
两个队列的一些常见的操作（出入队列等）这里就不在弹了
下面看看一个url解析的函数


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
1//解析域名，解析域名后surl队列中surl结构体会转化为url结构体放入url队列

2void * urlparser(void *none)

3{

4    Surl *url = NULL;

5    Url  *ourl = NULL;

6    map&lt;string, string&gt;::const_iterator itr;

7    //event_base * base = event_base_new();

8    //evdns_base * dnsbase = evdns_base_new(base, 1);

9    //event_base_loop(base,EVLOOP_NONBLOCK);

10

11    while(1) {

12        pthread_mutex_lock(&amp;sq_lock);

13        while (surl_queue.empty()) //surl队列为空则一直等待，直到被唤醒

14        {

15            pthread_cond_wait(&amp;sq_cond, &amp;sq_lock);

16        }

17        url = surl_queue.front();//取出surl队列中的url

18        surl_queue.pop();

19        pthread_mutex_unlock(&amp;sq_lock);

20

21        ourl = surl2ourl(url);//原始的结构体转化为ourl

22         //在回调函数中解析完加进去的 

23        itr = host_ip_map.find(ourl-&gt;domain);//在主机IP的map中寻找

24        if (itr == host_ip_map.end())//找不到的才需要解析，找到说明之前解析过了 

25        { // not found  

26          //解析DNSdns resolve

27            event_base * base = event_init();//执行一次libevent库的初始化

28            evdns_init();//在使用任何解析器函数之前，必须调用evdns_init（）函数初始化函数库

29            evdns_resolve_ipv4(ourl-&gt;domain, 0, dns_callback, ourl);//dns_callback回调函数

30            event_dispatch();

31            event_base_free(base);

32

33            //evdns_base_resolve_ipv4(dnsbase, ourl-&gt;domain, 0, dns_callback, ourl);

34            //event_base_loop(base, EVLOOP_ONCE | EVLOOP_NONBLOCK);

35        } 

36        else 

37        {

38            ourl-&gt;ip = strdup(itr-&gt;second.c_str());//之前解析过，直接拷贝

39            push_ourlqueue(ourl);//送入队列

40        }

41    }

42

43    //evdns_base_free(dnsbase, 0);

44    //event_base_free(base);

45    return NULL;

46}

47

48

surl2ourl(Surl * surl)函数如下，主要是将原始的url进行分割，分离出域名和路径，端口等，然后填入解析后的url结构


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
1//原始字符串Surl结构转化为url结构，

2static Url * surl2ourl(Surl * surl)

3{//calloc在动态分配完内存后，自动初始化该内存空间为零，而malloc不初始化，里边数据是随机的垃圾数据

4    Url *ourl = (Url *)calloc(1, sizeof(Url));

5//strchr函数原型：extern char *strchr(const char *s,char c);查找字符串s中首次出现字符c的位置。

6    char *p = strchr(surl-&gt;url, &#x27;/&#x27;);

7    if (p == NULL)//原始字符串不存在&#x27;/&#x27;

8    {

9        ourl-&gt;domain = surl-&gt;url;//直接是域名

10        ourl-&gt;path = surl-&gt;url + strlen(surl-&gt;url);//路径其实是空的

11    } 

12    else 

13    {

14        *p = &#x27;\0&#x27;;//覆盖&#x27;/&#x27;

15        ourl-&gt;domain = surl-&gt;url;//提取域名

16        ourl-&gt;path = p+1;//提取路径

17    }

18    // port端口，冒号后面是端口

19    //查找字符在指定字符串中从正面开始的最后一次出现的位置

20    p = strrchr(ourl-&gt;domain, &#x27;:&#x27;);//找最后一个出现的冒号

21    if (p != NULL) 

22    {

23        *p = &#x27;\0&#x27;;

24        ourl-&gt;port = atoi(p+1);

25        if (ourl-&gt;port == 0)

26            ourl-&gt;port = 80;

27

28    } 

29    else //Url中若没有端口号，则是默认的80端口

30    {

31        ourl-&gt;port = 80;

32    }

33    // level

34    ourl-&gt;level = surl-&gt;level;

35    return ourl;

36}

37

urlparser函数主要完成了下面的工作，surl转化为url结构，查找map容器，如果是之前未解析的，采用lievent进行域名解析，然后加入map容器，url结构进入ourl队列

lievent的DNS解析

lievent的使用可以参考libevent Documentation
主要是使用了该函数


1
2
3
4
5
6
1int evdns_resolve_ipv4  (const char *name,

2int flags,

3evdns_callback_type callback,

4void *  ptr 

5)       

6

参数


1
2
3
4
5
1name：是想要DNS解析的一个主机名

2flags：可以填 0,或者 DNS_QUERY_NO_SEARCH 禁用搜索此查询

3callback：是一个回调函数，在解析完成的时候会回调该函数 

4ptr：    一个传给回调函数的参数

5

在回调函数中可以得到解析后的ip地址


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
1//DNS解析回调函数

2static void dns_callback(int result, char type, int count, int ttl, void *addresses, void *arg) 

3{

4    Url * ourl = (Url *)arg;

5    struct in_addr *addrs = (in_addr *)addresses;

6

7    if (result != DNS_ERR_NONE || count == 0) 

8    {

9        SPIDER_LOG(SPIDER_LEVEL_WARN, &quot;Dns resolve fail: %s&quot;, ourl-&gt;domain);

10    } 

11    else

12   {

13        char * ip = inet_ntoa(addrs[0]);//网络字节序转化为主机字节序

14        SPIDER_LOG(SPIDER_LEVEL_DEBUG, &quot;Dns resolve OK: %s -&gt; %s&quot;, ourl-&gt;domain, ip);

15        host_ip_map[ourl-&gt;domain] = strdup(ip);//ip填入domain对应的ip

16        ourl-&gt;ip = strdup(ip);//ip填入ourl

17        push_ourlqueue(ourl);//加入队列

18    }

19    event_loopexit(NULL); // not safe for multithreads 

20}

21

另外，在主函数中，专门开了一个线程用来进行url的DNS解析的


1
2
3
4
5
6
7
1// 启动用于解析DNS的线程 

2    int err = -1;

3    if ((err = create_thread(urlparser, NULL, NULL, NULL)) &lt; 0) 

4    {//urlparser在url.cpp中

5        SPIDER_LOG(SPIDER_LEVEL_ERROR, &quot;创建Url解析线程失败: %s&quot;, strerror(err));

6    }

7

只要原始的url队列不为空，则一直进行DNS的解析，解析后放入另一个队列，若原始url为空（还没有抓取其他的url），则一直在等待，使用的是条件变量


1
2
1 pthread_cond_wait(&amp;sq_cond, &amp;sq_lock);

2

知道surl队列有url入队，被唤醒继续进行DNS解析的服务


1
2
3
4
5
6
1//发送一个信号给另外一个正在处于阻塞等待状态的线程,

2    //使其脱离阻塞状态,继续执行.如果没有线程处在阻塞等待状态,

3    //pthread_cond_signal也会成功返回

4        if (surl_queue.size() == 1)

5            pthread_cond_signal(&amp;sq_cond);

6

{{userData.name}}已认证

一只简单的网络爬虫（基于linux C/C++）————Url处理以及使用libevent进行DNS解析

Url处理

lievent的DNS解析

Bootstrap 4 Flex（弹性）布局

从零搭建自己的SpringBoot后台框架(二十三)

{{userData.name}}已认证

Url处理

lievent的DNS解析

Related posts:

Bootstrap 4 Flex（弹性）布局

从零搭建自己的SpringBoot后台框架(二十三)

v2ary 安装、卸载shell脚本【转发】

Linux tcpdump命令详解大全

Linux的系统调用、网络连接状态、磁盘I/O；可疑行为监控/日志收集、SHELL命令执行流程

带你玩转kubernetes-k8s（第31篇：k8s-深入掌握Service：DNS服务详细讲解）