代码 预处理部分 - 获取频道列表 解析各频道列表页面,并将url入库 从数据库获取url解析各详情页面 总结 赶集网的分页,第一页与第二页的规...
笔记 进程与线程的关系 python中可使用multiprocessing来实现多进程from multiprocessing import P...
笔记 先爬取详情页的URL列表并入库 再根据数据库中的URL列表解析详情 作业 代码 splider1 执行结果(局部) splider2 执行...
笔记 连接数据库服务:client = pymongo.MongoClient('localhost', 27017) 创建/访问数据库:$db...
常用命令show dbsuse <dbsName>show collectionsdb. .find()db.createCollection(...
作业 代码 执行结果: 备注:详情页中的浏览量已经改为实时加载了,所以作业中要求的js异步加载部分未涉及。
笔记 通过观察加载动态数据时的网络交互,寻找加载更多数据的Request的规律,进一步构造相应Request来获取Response。 作业 代码...
笔记 网络交互 = Request + Response Request的方法分为:getpostheadputoptionsconnecttr...
笔记 爬取网页的基本方法: 使用BeautifulSoup解析网页Soup = BeautifulSoup(html, 'lxml') 描述要爬...