没有反爬
各大新闻网站如http://mil.news.sina.com.cn/roll/index.d.html?cid=57918等,所见即时所得,都是静态加载,唯一的突破点是要梳理不同网站的清洗规则。
有一点点反爬
- 数字+字母验证码
http://www.pss-system.gov.cn/sipopublicsearch/portal/uilogin-forwardLogin.shtml
突破方法是通过打码平台打码,一般10个几分钱且仅用于登陆所以成本比较低。 - 动态加载
这个的处理方式有两种:
抓取xhr连接,找到真正的数据地址。
同样是新浪的滚动新闻 https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1
这是静态加载的,按F12尝试筛选可以发现真正的数据连接是https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2510&k=&num=50&page=1
使用浏览器加载(pyppeteer或其他同类产品)
麻烦一点的反爬
- ip限制
针对不用登陆的网站,可能会对IP进行访问频率限制,具体网站限制不同,要较长的时间研究网站规则 ,常见出现大量非200 404错误可能就是被IP限制了。 - 工程验证码中级
http://dun.163.com/trial/jigsaw拖拉式验证码,有拖拉到指定缺口,拖拉到尽头两种,一般伴随着浏览器驱动检测,所以还需要注入js把检测模块处理掉。 - 字体css反爬
https://maoyan.com/cinemas?movieId=1218141
需要下载一个字体模板作为对比,然后这个网站可以打开otf格式的文件浏览http://fontstore.baidu.com/static/editor/index.html
通过对比方式找到对应数字的代码
比较麻烦的反爬
-
收发短信认证
一般注册普通小网站的或可以选择免费的接码平台,像大站的手机验证只能实人验证,操作比较麻烦。
- 语义点选
http://dun.163.com/trial/picture-click
大概的处理流程是标注、训练、编码,工程量大,而且工作只有思想可以复制,网站更换套件又得重新处理一遍流程。