url 管理器
防重复抓取、循环抓起
内存 set
mysql
redis
下载器
下载html 到本地成字符串
urllib2
urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL。这意味着,你不可以伪装你的User Agent字符串等。urllib提供urlencode方法用来GET查询字符串的产生,而urllib2没有。这是为何urllib常和urllib2一起使用的原因。
request(第三方库)
解析器
beautifulsoup4
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id5