通过前面的学习,你应该已经知道怎么提取到爬虫数据了。但是提取数据之后,我们应该讲数据保存起来,或者进一步应用起来,爬虫才有意义。爬虫最常用的数据...
在学习本小节的知识之前,对于Xpath的语法最好有一个简单的了解。如果不是很了解的,可以看一下我的另一篇文章Xpath之爬虫常用方法总结。 爬虫...
什么是JSON JSON 指的是 JavaScript 对象表示法(JavaScript Object Notation),是轻量级的文本数据交...
json.dumps(),用于数据类型的转换json.dumps()用于将dict类型的数据转成str,因为如果直接将dict类型的数据写入js...
之前的文章中讲到,有很多网站为了防止爬虫程序爬网站造成网站瘫痪,所以我们的程序在模拟浏览器访问这些网站时,需要携带一些headers头部信息才能...
timeout参数的使用 在某些网络情况不好或者服务器端异常的情况会出现请求慢或者请求异常的情况,这个时候我们需要给请求设置一个超时时间,而不是...
如果你尝试了我在Python爬虫(二)Requests库题中讲述的response方式,发现有可能会获取不到网页源码(登陆知乎一定可以获取不到)...
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库...
HTTP和HTTPS HTTP是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文...
文集作者