学习资料
书籍: Python爬虫开发与项目实战
该书作者博客:http://www.jianshu.com/u/c6176c13bf98
并发
CONCURRENT_REQUESTS与DOWNLOAD_DELAY的关系
DOWNLOAD_DELAY 的设置优先于CONCURRENT_REQUESTS,在设置了DOWNLOAD_DELAY 的情况下,即使设置了并发,也会串行执行,没有了并发.
见scrapy中CONCURRENT_REQUESTS与DOWNLOAD_DELAY的联系
反反爬虫策略
见Scrapy研究探索(七)——如何防止被ban之策略大集合
禁止cookies
user agent池
代理ip池
制作思路: https://www.zhihu.com/question/47464143
开源库:
https://github.com/qiyeboy/IPProxyPool
https://github.com/jhao104/proxy_pool
https://github.com/WiseDoge/ProxyPool分布式爬取
增量爬取
https://www.zhihu.com/question/19793879
效率提升
https://segmentfault.com/a/1190000009321902
数据存mongodb
mongodb 安装(windows)
http://www.cnblogs.com/lzrabbit/p/3682510.html
注意,最后安装为服务后,要自己去系统中开启服务.以后重启电脑它能自动开启.