安装包换源
again and over again
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package #要安装的包(清华镜像)
datetime与字符串的相互转换
str->datetime
datetme.strptime(str,'%Y-%M-%D')
浏览器和web的练习
爬虫文件划分:
某些代码作为轮子or板子,例如spider爬取的函数,存储(txt,html,csv)函数,lxml解析函数,正则表达式(特定情况下有套路,如细节处理,豆瓣网站处理,)
new knowledge:较昨天configparse配置,numpy
- primary_data文件:存储原始爬取的数据(txt,html)
- handled_data文件:存储已经解析分析完成的数据
- spider文件:
3.1my_spider:爬虫爬取文件
3.2job_line:数据解析文件 - utils文件:
4.1file_tools文件:负责读写的文件操作
4.2producter文件:读写以外的函数,例如月薪最小最大值函数,获得所有的url的函数 - run文件 模块化后对客户来说可以理解的执行文件,可直接或间接调用所有文件
spider文件
//文件树根寻找,使用lxml.etree处理xml文件
etree具有parse('配置文件')#配置文件不需要路径名
可以将读取url的爬虫函数嵌套在读取cfg配置文件的函数,先通过cfg获得必要的参数,形成url,然后在该函数调用网络爬虫