通过前面的学习,你应该已经知道怎么提取到爬虫数据了。但是提取数据之后,我们应该讲数据保存起来,或者进一步应用起来,爬虫才有意义。爬虫最常用的数据保存方法有txt文件、Exce...
通过前面的学习,你应该已经知道怎么提取到爬虫数据了。但是提取数据之后,我们应该讲数据保存起来,或者进一步应用起来,爬虫才有意义。爬虫最常用的数据保存方法有txt文件、Exce...
在学习本小节的知识之前,对于Xpath的语法最好有一个简单的了解。如果不是很了解的,可以看一下我的另一篇文章Xpath之爬虫常用方法总结。 爬虫数据Xpath处理步骤 lxm...
Xpath简介 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结...
什么是JSON JSON 指的是 JavaScript 对象表示法(JavaScript Object Notation),是轻量级的文本数据交换格式,且具有自我描述性,更易...
json.dumps(),用于数据类型的转换json.dumps()用于将dict类型的数据转成str,因为如果直接将dict类型的数据写入json文件中会发生报错,因此在将...
之前的文章中讲到,有很多网站为了防止爬虫程序爬网站造成网站瘫痪,所以我们的程序在模拟浏览器访问这些网站时,需要携带一些headers头部信息才能访问,最常见的有User-Ag...
timeout参数的使用 在某些网络情况不好或者服务器端异常的情况会出现请求慢或者请求异常的情况,这个时候我们需要给请求设置一个超时时间,而不是让程序一直在等待结果。写一个简...
如果你尝试了我在Python爬虫(二)Requests库题中讲述的response方式,发现有可能会获取不到网页源码(登陆知乎一定可以获取不到)。 如果User-Agent还...
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。与urllib相比,Requ...
HTTP和HTTPS HTTP是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文本到本地浏览器的传输协议,它可...
什么是爬虫 百度词条上对于爬虫的定义是:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序...
Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。在安装Scrapy模块时,pip install S...
去年年底接手的一个模块测试任务中,涉及到了WebService。然而服务端提供的测试数据极其少,所以就利用SoapUI模拟服务端,来测试客户端的程序。 SoapUI的安装 S...
今天在用soapUI模拟服务端之后,客户端连接不上,后来分析发现了是以下原因导致的,在这里记录一下。 启动的服务端的path:/port:8080host:127.0.0.1
出现该错误是因为mysql数据库中默认的字符编码都为latin1,而我们插入的值是中文,才会出现这种错误。解决方法是将对应的数据库表中的address列的字符集改为utf-8...
创建第一个Django项目 常用的几个命令及其用处如下: startproject:创建一个项目 startapp:创建一个应用 makemigrations:检测模型变化,...
什么是Django Django是一个开放源代码的Web应用框架,由Python写成。采用了MVC的框架模式,即模型M,视图V和控制器C。其框架的核心组件有: 用于创建模型的...