采集数据案例网:
卷皮网 :http://www.juanpi.com/
file_get_content() 不能传参数
python作数据采集
curl 请求 ajax js返回字符串不解析
商品列表,正则匹配出来
抓取,就可以防盗链
有些页面不登录不能抓取。返回html代码
没有cookie不能抓取,本地 cookie没有存在sessionid
表单和 URL 可以带令牌。
防抓页面
设置coookie
URL字段
get请求字段
curl模仿浏览器一样把cookie也存下来 模拟登录sessionID带上去
高级的cookie不在请求响应头里设置,在后台设置
前端是用js代码生成,字符串不能被解析,手动计算代码。
curl文件里,防盗链是相对的。拿到令牌,下次传过去
前台,计算值. 可以防掉一大部份的人
设置cookie几种形式 js php html标签,post字段,get超链接也可以做令牌。
自定义头,value
爬虫 所有连接,外连,和网站相关的全部访问。
network response下面 解析json
sass平台类似QQ企业邮箱
www.qqe2.com json数据转换
taobao权限判断
作业
1、源代码模拟登录
2、扒淘宝的一个子页面,存到数据库,找一个时间点,存到数据库
- 页面,完整,美观,无缺陷,列表页,分详,详情,列表页扒到1000条,10页
数据
3、12306火车票模拟登录,找验证码,识别模拟登录进去。图片请示回来,,点击图片4个坐标当,参数传回去模拟登录