240 发简信
IP属地:四川
  • 120
    爬豆瓣豆列

    目的:把精彩豆列频道里的每个豆列里的内容抓取出来。流程是抓取目录页精彩豆列频道豆列的地址-对每个豆列所有页数都抓取具体内容、网址、时间。这就很标准crawlspider干的活...

  • 120
    验证码去除干扰线

    在邦购登陆时,选择了人工检验验证码,这次用机器检测试试。先说基本逻辑:载入图像,转灰度,二值化,连通域检测,去除连通域小的,根据各连通域的范围切割图像。 先下载图片。 得到的...

  • 120
    ng deep learning 学习笔记

    先快速搭建一个神经网络,看看训练集效果,调整,看dev集的cv效果,调整,看test集效果,调整,最后看实际数据的效果,再调整。

  • 120
    爬今日头条,各种失败经验,之后成功了

    最近研究了一下js加密,发现今日头条比较适合练手,在头条获取数据的XHR中request参数有一项_signature参数,这个是就是经过js加密的数据。解决方案在最后。 复...

  • scrapy 关于session

    在requests用session登陆这篇讲了怎么用同一个session控制cookies以达到登陆的需求,在scrapy里主要用的是FormRequest和cookieja...

  • scrapy用proxy的零零总总

    在scrapy框架及中间件中说到了中间件相关的数据流程,刚好在用proxy爬数据的时候会用到中间件的零零总总,这回可以一起说说了。我觉得写中间件要先找到内置的相关中间件,根据...

  • 120
    爬金融数据

    最喜欢的爬取的就是由前端数据,返回的json全是数据特别好弄,而且还可以根据需求构造网址,一次取回所需数据。这次爬的是东方财富网的股东人数,地址是http://data.ea...

  • python -装饰器

    装饰器之前要先说说函数名()和函数名的区别 test()是返回函数值,所以是可以赋值给变量的。比如a=test()。test是调用函数,在scrapy里有很多的callbac...

  • scrapy_redis分布式爬虫

    说到redis了,自然就要说到另一个爬虫框架scrapy_redis,分布式爬虫,scrapy与scrapy_redis最大的不同是scheduler,也正是因为这个sche...

  • 120
    scrapy框架及中间件

    scrapy框架官方图如下 基本流程是1.spider发出初始request需求,默认是对start_urls发起get方法的request,如果带参数或者post就重写st...

  • scrapy+redis增量爬虫

    scrapy适合一次性爬取全站,如果我想多次爬取,主目录页面难免会出现重复,去重增量爬取就很有必要了。我在网上搜到了这样的文章scrapy+redis增量爬取,逻辑是前一次存...

  • 120
    爬m.weibo站

    最近需要一些拍照的指导,想爬取微博里的相册,m站比pc站好爬,先看看pc的network。顺利找到网址,不过pc的分页方式让我分方,感觉像是开始以为是时间戳,可能是图片的数据...

  • 120
    用python写爬虫-re模块

    re模块中最常用到三个函数的是match,search,findall。不过他们都能匹配字符串,不过又稍有不同。 基本格式 re.findall/match/search("...

  • 120
    sklearn-loss function

    我认为各个模型核心就是loss function,loss function不同就是不同的模型,具有相同的loss function大体也就相同,可能只是一个是分类,一个是回...

  • sklearn-4.11逻辑回归,SVM,SGDClassifier的应用

    模型选择: 前面说了逻辑回归和SVM的区别和联系,主要是线性是否可分,但是实际二分类中特征向量维数起码数十,成百上千的,虽说降维之后看看特征是否能够线性可分,但再加上数据本身...

  • 120
    sklearn-4.1逻辑回归,SVM

    sklearn前面有过一个树状图,大概说了什么情况用什么模型合适。 监督学习分类模型,主要有逻辑回归LogisticRegression,支持向量机svm,神经网络,近邻KN...

  • 120
    requests和pandas联合爬代理ip,验证ip

    最近需要找个代理上网,但是网上免费的ip实在是不太好用,随机找到好用ip的概率实在有点小,就只能把它们都下下来挨个试。我爬的是西刺代理-高匿,翻看两页,想看看数据来源,完了是...

  • sklearn-5.评价选择model

    sklearn.model_selection就是选择模型的额,主要方法是cross_val_score,主要是把原始数据拿出一部分来做验证,看训练的怎么样,就像考试一样,考...

  • 120
    sklearn-3.预处理数据

    导入数据之后要做的是预处理,sklearn.preprocessing,主要分为几个方面。1.缺失值的处理缺失值我觉得用pandas来处理更方便,pandas.fillna,...