Flask 是一个 python web micro framework。所谓微框架,主要是 flask 简洁与轻巧,自定义程度高。相比 django 更加轻量级。之前一直折...

Flask 是一个 python web micro framework。所谓微框架,主要是 flask 简洁与轻巧,自定义程度高。相比 django 更加轻量级。之前一直折...
sqlalchemy是python当中比较出名的orm(object relational mapping)程序, 即对象映射关系程序。 之所以选择sqlalchemy,是因...
简介 scrapy作为爬虫利器,我就不多说了。常见的结合js的爬虫,一般用来扒取网页动态内容,就是通过操作js获取渲染的内容。现在大部分网站都是ajax+json获取数据的方...
对于网页的采集有这样几种:1.静态网页2.动态网页(需进行js,ajax动态加载数据的网页)3.需进行模拟登录后才能采集的网页4.加密的网页 3,4的解决方案和思路会在后续b...
5-14更新 注意:目前拉勾网换了json结构,之前是content - result 现在改成了content- positionResult - result,所以大家写...
自从用了Selenium的方法,就停不下来了。毕竟稍微正式点的网站,都是JS动态加载数据。requests虽然速度快,但能用的范围还是有限。在不追求极至效率的情况下,Sele...
使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬虫中的登陆、验证码、异步加载等复杂问题。 Web...
其实大部分主流网站都不是静态的html,html和Javascript相结合已经是大势所趋。本篇以花瓣网主页为例子。花瓣网主页,右键查看网页源代码,获得的页面是这样的: 这里...
Selenium的Webdriver爬取动态网页效果虽然不错,但效率方面并不如人意。最近一直研究如何提高动态页面爬虫的效率,方法无非高并发和分布式两种。过程中有很多收获,也踩...