火柴菌 - 简书

发简信

火柴菌

11
关注
5
粉丝
11
文章
1753

字数
13

收获喜欢
10

总资产

IP属地：西藏

火柴菌

在dockerfile中把maven的下载源更换为阿里的镜像仓库
开门见山，直接上代码 1，在docker打包的同级目录下添加settings.xml文件 2，在安装项目依赖的maven命令运行前，将settings.xml文件copy到d...

4220 3 1
火柴菌

你平时脑袋里的「意淫」，扩充一下就成了「思维训练」
在逛知乎的时候，看到马伯庸分享的关于如何扩展一个故事的观点。他说他会利用乘地铁时的碎片时间来任意想象周围的人和事，天马行空的景象在脑袋里像开枝散叶般，向无数个节点不断扩散。...

365 0 1

火柴菌

说说《月亮与六便士》里被绿的可怜荷兰胖子
《月亮与六便士》里德克·斯特罗夫可真是个神奇的荷兰胖子，他对爱情忠贞，却没想到爱情视他为无物；他有一颗善良的心，却不怎么讨喜，人们受了他的好处还会说他闲话；他是个却又直来直去...

2237 0 1
火柴菌

Python 的写法还算易懂，你用Java的语法重写一遍这个逻辑就行了，Java相关的依赖库都可以搜索到的。

selenium+Chrome headless(无头浏览模式)下载文件
到目前为止，使用selenium操作headless 模式下的chrome下载文件会出现问题，点击了下载却没有任何文件被下下来。官方现在也还没有正式解决这个bug(若已解决请...

火柴菌
10038 5 2
火柴菌

爬虫框架pyspider踩坑总结，不定时更新...
self.crawl()方法只抓取一次，之后多次run还是不抓取解决方法: 1，添加@config(age=1)到callback函数: age为1代表1s内如果请求相同的...

1381 0 2
火柴菌

抓包工具Charles的使用心得
简介 Charles其实是一款代理服务器，通过成为电脑或者浏览器的代理，然后截取请求和请求结果达到分析抓包的目的。该软件是用Java写的，能够在Windows，Mac，Lin...

FITZ9311
381069 63 446
火柴菌

selenium+phantomjs模拟登录京东后台并且保存cookies
做爬虫的同学应该经常遇到登录验证的问题，在这里我使用phantomejs模拟登录并且保存cookies，方便再次登录。废话不多说，直接切入正题。模拟登录从网上获取cook...

5238 2 3 1

火柴菌

selenium+Chrome headless(无头浏览模式)下载文件
到目前为止，使用selenium操作headless 模式下的chrome下载文件会出现问题，点击了下载却没有任何文件被下下来。官方现在也还没有正式解决这个bug(若已解决请...

10038 5 2
火柴菌

@天蓝_JS2017 很不幸的告诉你，后来我用的那种方式也失效了，无论怎么改headers，改cookies，都没有效果。应该是scrapy请求时自带了一些特征被天猫针对了，我目前还没有查到具体原因，所以因为时间关系，我直接用requests重新写了个小框架，可以正常爬取。建议你被反爬时用requests也发送同样的请求看一下是不是能得到同样的结果，这样可以更快的查到原因。

scrapy爬取天猫被重定向302问题
importscrapy classtmSpider(scrapy.Spider): name ='tianmao' defstart_requests(self): # 全...

火柴菌
6620 6 3
火柴菌

gzm1997
写了 3120 字，被 86 人关注，获得了 128 个喜欢
火柴菌

Python3 ImportError问题快速解决方案
文件目录结构： demo文件夹下的exampl2.py文件引用上级目录里的模块报错：快速解决方法：在引入包的最外层目录新建main.py文件调用需要执行的文件

289 0 0
火柴菌

在Redis队列中push，pop多个参数
思路还是挺简单的，以列表或者其他容器作为搭载，将需要传输的参数写入容器，再将这个容器push到队列中。取参数的时候将容器里的内容对应取出即可，以下为示例代码：将参数push...

4949 0 0

火柴菌

headers需要加入cookies的，禁用Scrapy的cookies是为了让它不保存cookies的状态。

scrapy爬取天猫被重定向302问题
importscrapy classtmSpider(scrapy.Spider): name ='tianmao' defstart_requests(self): # 全...

火柴菌
6620 6 3
火柴菌

Scrapy结合MySQL,使用ORM：Peewee
Peewee的官方文档点这里。首先，在items.py里建立Model和MySQL连接。接下来在spiders目录下新建一个爬虫脚本，写入代码：然后在pipliens...

3228 0 0
火柴菌

萌薇
写了 158587 字，被 54970 人关注，获得了 85581 个喜欢

已出版《幸运手帐》 私人微信: fmw2018 ， 新浪微博：@付萌薇 微信公众号：mengwei2017
火柴菌

Scrapy的多个Spider指定不同的pipeline
假设你有以下多个Spider：在pipeline里判断执行哪个爬虫逻辑：

3049 0 0
火柴菌

scrapy爬取天猫被重定向302问题
importscrapy classtmSpider(scrapy.Spider): name ='tianmao' defstart_requests(self): # 全...

6620 6 3