scrapy实现对github用户的爬取

采用scrapy框架来实现，主要有两块，一是实现用户的登录，二是实现对用户的爬取。

首先，用户的登录，采用chrome的开发者工具network观察，得到用户登录的网址和post的数据，分别是https://github.com/session，post的数据是{commit:Sign in，utf8:✓，authenticity_token:tokens，login:用户名，password:用户密码}，也就是共有五个字段需要post，唯一需要我们找到的就是anthenticity_token字段，这个也可以通过开发者工具，然后再xpath找到。

登录以后第二步就是实现对用户的爬取，这个我是走了一些弯路的，刚开始的设想，也是同时参考了网上其他人的思路，就是首先从一个用户的follower开始，挨个爬取，同时将这些follower加入一个队列，如果该用户的follower爬取完毕，那么就从队列里取出一个follower A，其实也就是一个用户，再递归爬取该follower A的follower，有些类似于先广搜索，大概实现的伪代码如下所示 def parse_follower(self,response): 找出该页面的用户的所有follower，提取用户数据，yield item 将提取到的用户的follower页面加入队列Queue 如果follower不止一页，有下一页next_url: 那么yield parse_follower(url = next_url，callback=parse_follower) 当Queue不为空: 取出第一个进队列的用户的user_follower页面，然后yield parse_follower(url=user_follower, callback=parse_follower)

本来以为程序的运行是没有问题的，当时设定提取200个用户然后return，但是程序启动之后却永远停不下来，开始度娘，最后终于找到原因，因为scrapy这个框架是并发的，并不是顺序执行的，也就是说并不是先把一个用户的所有follower都爬取完毕再去队列里取值，而是并发的，异步乱序的，这就导致了一方面还在取用户的follower，没有爬取完所有的follower，就开始爬取follower的follower，然后永远的递归下去，导致了既不是先广爬取也不是先深爬取，成了四不像，也就是说scrapy会异步的并发的乱序地爬取用户的follower，follower的follower，follower的follower的follower无穷无尽。由此得到一个知识点，scrapy是异步并发的！异步并发的！异步并发的！解决方法：设置一个bool值done，只有在一个用户的follower取完之后，done为真，那么才从队列的user follower url中继续爬取。

TALK IS CHEAP,SHOW YOU THE CODE! GITHUB地址

scrapy实现对github用户的爬取

推荐阅读更多精彩内容