一直以为,学习一门语言最快的办法就是项目实践,带有目的性的去搜寻学习资料比从头开始效率高得多。一直都有学python的想法,毕竟是互联网从业人员,不会一门脚本语言真是说不过去。最近工作上有需要用到爬虫的地方,于是用空余时间开始学习。
我的想法是,简单粗暴的实现目标,性能代码美观什么的都是浮云。
之前了解过Python和HTML,基础语法和结构都了解,有需要时再去看。找了一圈资料后,发现主要有一下两个方面需要了解。
1.Python相关的模块
一种是urllib、requests加上BS4等模块组合,request处理http网络协议之类的,BS4负责解析网页的结构数据。这类应该相对容易入门,网络上也普遍推荐requests+BS4的组合;
另一种就涉及到框架,scrapy、pyspider,这种相对进阶,以后可以作为进阶任务,目前暂时不考虑。
2.RE正则表达式
不管哪里的爬虫教程,正则表达式都是必修课。况且正则表达式在许多语言下都很通用,虽然形式略有差别。想起之前有一次要在一个demo里添加校验身份证号码的表达式,学习正则还是比较重要的。
爬虫需要的知识远不止这么多,但我的第一阶段只是爬取静态数据,这些知识已经足够。
下一篇文章开始认真记录一下学习记录。