API接口 创建虚拟环境 mkvirtualenv 虚拟环境名称 安装 pip3 install django==1.11pip3 install djangorestfra...
pyspider web爬虫框架简单使用 pip3 install pyspider 在桌面创建一个pyspider的文件夹,在里打开终端,然后开启 pyspider all...
self.crawl 主要告诉pyspider需要爬取的网址 url 需要爬取的url列表 callback 这个参数用来指定爬取内容后需要哪个方法来处理内容.一般解析为 r...
1.存储在redis数据库中,每个item都要加一个tableName,这样取出来处理数据时,可以根据tableName进行判断 如果代码报错回调方法错误,打开爬虫文件,需要...
分布式爬取需要安装pip3 install scrapy_redis 首先修改setings.py文件: 1.设置去重组件,使用的是scrapy_redis的去重组件,而不再...
User-AgentCookiesIPSelenium 1.User-Agent settings.py文件中添加几个UA middlewares.py中设置User-Age...
创建CrawlSpider模板: scrapy genspider -t crawl spider名称xxxx.com 继承CrawlSpider LinkExtractor...
Scrapy架构图 一、新建项目 scrapy startproject myspider 创建爬虫项目 scrapy startproject jobboleproject...
Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓...
服务器端 服务器端命令 redis-server 查看帮助文档 redis-server --help 启动 sudo server redis start 停止 sudo ...
MySql的主要存储引擎有哪些,主要区别? MYISAM INNODE MEMORY 区别:MYISAM: 它不支持事务,也不支持外键 INNODE: InnoDB存储引擎提...
selenium:是一个web的自动化测试工具,可以直接运行在浏览器上,但是并不自带浏览器,需要有浏览器驱动,selenium可以根据我们的代码指令让浏览器自动加载页面,这时...
并发:指的是任务数多余cpu核数,通过操作系统的各种任务调度算法,实现用多个任务“一起”执行(实际上总有一些任务不在执行,因为切换任务的速度相当快,看上去一起执行而已) 并行...
正则 在python中使用正则表达式需要导入re模块 Xpath xpath:可以在xml中查找信息,对xml文档中的元素进行遍历和属性的提取xml:被设计的目的,是为了传输...
requests的简单使用 1.最基本的GET请求可以直接用get方法 response = requests.get(url) response的常用方法:response...
连接 文档操作 增 删 改 查
MongoDB备份(mongodump) mongodump -h dbhost -d dbname -o dbdirectory-h 服务器地址-d 需要备份的数据库名-o...
超级管理员 1.创建超级管理用户 2.创建成功后退出mongodb客户端, 然后service mongodb stop, 再开启安全认证, 3.启用安全认证 4.重启mon...