ddm2014 - 简书

发简信

ddm2014

11
关注
26
粉丝
55
文章
22217

字数
65

收获喜欢
5

总资产

IP属地：四川

ddm2014

爬豆瓣豆列
目的：把精彩豆列频道里的每个豆列里的内容抓取出来。流程是抓取目录页精彩豆列频道豆列的地址-对每个豆列所有页数都抓取具体内容、网址、时间。这就很标准crawlspider干的活...

1340 0 0
ddm2014

验证码去除干扰线
在邦购登陆时，选择了人工检验验证码，这次用机器检测试试。先说基本逻辑：载入图像，转灰度，二值化，连通域检测，去除连通域小的，根据各连通域的范围切割图像。先下载图片。得到的...

11409 1 2

ddm2014

ng deep learning 学习笔记
先快速搭建一个神经网络，看看训练集效果，调整，看dev集的cv效果，调整，看test集效果，调整，最后看实际数据的效果，再调整。

324 0 0
ddm2014

爬今日头条，各种失败经验，之后成功了
最近研究了一下js加密，发现今日头条比较适合练手，在头条获取数据的XHR中request参数有一项_signature参数，这个是就是经过js加密的数据。解决方案在最后。复...

11335 2 6
ddm2014

辰辰沉沉沉
写了 25360 字，被 25 人关注，获得了 42 个喜欢
ddm2014

scrapy 关于session
在requests用session登陆这篇讲了怎么用同一个session控制cookies以达到登陆的需求，在scrapy里主要用的是FormRequest和cookieja...

5783 0 1
ddm2014

scrapy用proxy的零零总总
在scrapy框架及中间件中说到了中间件相关的数据流程，刚好在用proxy爬数据的时候会用到中间件的零零总总，这回可以一起说说了。我觉得写中间件要先找到内置的相关中间件，根据...

2270 0 4

ddm2014

爬金融数据
最喜欢的爬取的就是由前端数据，返回的json全是数据特别好弄，而且还可以根据需求构造网址，一次取回所需数据。这次爬的是东方财富网的股东人数，地址是http://data.ea...

734 0 0
ddm2014

python -装饰器
装饰器之前要先说说函数名（）和函数名的区别 test()是返回函数值，所以是可以赋值给变量的。比如a=test()。test是调用函数，在scrapy里有很多的callbac...

258 0 0
ddm2014

scrapy_redis分布式爬虫
说到redis了，自然就要说到另一个爬虫框架scrapy_redis，分布式爬虫，scrapy与scrapy_redis最大的不同是scheduler，也正是因为这个sche...

326 0 0
ddm2014

scrapy框架及中间件
scrapy框架官方图如下基本流程是1.spider发出初始request需求，默认是对start_urls发起get方法的request，如果带参数或者post就重写st...

2724 0 1
ddm2014

scrapy+redis增量爬虫
scrapy适合一次性爬取全站，如果我想多次爬取，主目录页面难免会出现重复，去重增量爬取就很有必要了。我在网上搜到了这样的文章scrapy+redis增量爬取,逻辑是前一次存...

2332 1 4

ddm2014

爬m.weibo站
最近需要一些拍照的指导，想爬取微博里的相册，m站比pc站好爬，先看看pc的network。顺利找到网址，不过pc的分页方式让我分方，感觉像是开始以为是时间戳，可能是图片的数据...

2295 0 1
ddm2014

用python写爬虫-re模块
re模块中最常用到三个函数的是match，search，findall。不过他们都能匹配字符串，不过又稍有不同。基本格式 re.findall/match/search("...

525 0 0
ddm2014

sklearn-loss function
我认为各个模型核心就是loss function，loss function不同就是不同的模型，具有相同的loss function大体也就相同，可能只是一个是分类，一个是回...

2362 0 0
ddm2014

sklearn-4.11逻辑回归，SVM，SGDClassifier的应用
模型选择：前面说了逻辑回归和SVM的区别和联系，主要是线性是否可分，但是实际二分类中特征向量维数起码数十，成百上千的，虽说降维之后看看特征是否能够线性可分，但再加上数据本身...

9569 0 3
ddm2014

sklearn-4.1逻辑回归，SVM
sklearn前面有过一个树状图，大概说了什么情况用什么模型合适。监督学习分类模型，主要有逻辑回归LogisticRegression，支持向量机svm，神经网络，近邻KN...

1257 0 4

ddm2014

requests和pandas联合爬代理ip，验证ip
最近需要找个代理上网，但是网上免费的ip实在是不太好用，随机找到好用ip的概率实在有点小，就只能把它们都下下来挨个试。我爬的是西刺代理-高匿，翻看两页，想看看数据来源，完了是...

1509 0 0
ddm2014

sklearn-5.评价选择model
sklearn.model_selection就是选择模型的额，主要方法是cross_val_score，主要是把原始数据拿出一部分来做验证，看训练的怎么样，就像考试一样，考...

502 0 0
ddm2014

sklearn-3.预处理数据
导入数据之后要做的是预处理，sklearn.preprocessing，主要分为几个方面。1.缺失值的处理缺失值我觉得用pandas来处理更方便，pandas.fillna，...

316 0 1

暂无个人介绍