佑岷 - 简书

发简信

佑岷

3
关注
7
粉丝
41
文章
7417

字数
8

收获喜欢
1

总资产

IP属地：山西

佑岷

这种加载方式基本都是异步加载的页面。
1. 可以通过次数；2.可以通过次数是maxValue+itemSize的长度变化来自行到底退出；

scrapy-Splash scroll to bottom 自动滚动滚动条到最底部
为方便集群和部署用Splash技术做动态页面爬取，效果很好，splash还可以做一些交互，网上有公司在用splash逐步替换掉selenium。当然在使用过程中也遇到一些挑战...

佑岷
2124 3 0
佑岷

命令行：Window cmd 远程关闭服务器
wmic /node:10.8.154.63 /user:administrator /password:password process call create "cmd....

608 0 0

佑岷

(l = buffer.readLine()) != null堵塞不释放问题
网络请求数据过程中偶发遇到readline（）一直不结束问题： jps & jstack -l pid：定位之后发现只这行：while ((l = buffer.readL...

973 0 0
佑岷

代理iP账密请求https时报错Proxy returns "HTTP/1.0 407 Proxy Authentication Required"
从公司的私有云机房迁到公有云机房后，对外是五个公网IP随机呈现，购买的代理IP供应商只能绑定一个授权公网IP，因此只能采取帐密方式。针对http协议的请求通过：这种方式即可...

2185 0 0
佑岷

爬虫专题
向右奔跑编，535 篇文章，2915 人关注

我们的目标是，爬爬爬爬完知乎爬简书爬完豆瓣爬京东爬完网站，爬移动端爬完数据，搞分析收录分享优质爬虫学习文章加微信 yong164647 （暗号 py）进入爬虫数据分析群交流学习
佑岷

抓取大众点评商户数据
大众点评商户数据还是有难度的，特别是美食类的，字体做了加密，网上很多资料自己看下即可。之前是实时搜索抓取，需要登录账号，而后干脆抓全量好了，全量方便点。思路：获取所有城市...

1451 0 0
佑岷

抓取微信公众号
思路就是：首先破解获取公众号的链接地址，注意链接地址是随时变的，然后自动翻页，翻页数自定义，最后解析即可~

270 0 0

佑岷

signals作为切入点使用的，它的所有类型如下，总有一款适合你：
engine_started = object()
engine_stopped = object()
spider_opened = object()
spider_idle = object()
spider_closed = object()
spider_error = object()
request_scheduled = object()
request_dropped = object()
request_reached_downloader = object()
response_received = object()
response_downloaded = object()
item_scraped = object()
item_dropped = object()
item_error = object()

# for backward compatibility
stats_spider_opened = spider_opened
stats_spider_closing = spider_closed
stats_spider_closed = spider_closed

item_passed = item_scraped

request_received = request_scheduled

scrapy中start_requests循环拉取loop任务 while(True)
需求中希望scrapy的spider能够一直循环从Redis、接口中获取任务，要求spider不能close。一版实现在start_requests中：但是这种写法会导致任...

佑岷
3534 7 2 1
佑岷

如这个：spider 打开后触发回调，进行初始化或者数据清理
@classmethod
def from_crawler(cls, crawler):
o = cls(crawler.stats)
crawler.signals.connect(o.spider_opened, signal=signals.spider_opened)
return o

def spider_opened(self, spider):
self.host_regex = self.get_host_regex(spider)
self.domains_seen = set()

scrapy中start_requests循环拉取loop任务 while(True)
需求中希望scrapy的spider能够一直循环从Redis、接口中获取任务，要求spider不能close。一版实现在start_requests中：但是这种写法会导致任...

佑岷
3534 7 2 1
佑岷

多任务分布式调度算法——合理分配任务资源
问题：A网站抓取需要8个小时，B网站需要半个小时，如果A网站先开始那么B网站需要8个小时候才能执行到。如果A网站的紧迫性没那么高，只期望能慢慢的刷新譬如论坛网站，而B网站期望...

1902 0 0
佑岷

Java将方法作为参数传递
最近在用Java写一套自研爬虫框架，该框架可以通过简单的配置就可以实现目标网站的抓取，不再需要研发人员做开发，业务人员也能抓目标网站哦，有兴趣可以私聊。为了抽象化需要将用户...

7206 0 0
佑岷

屏蔽K8S中的POD访问特定网址
最近在看点评网站：感觉里面防爬做的蛮好：验证方面采用随机验证类型（滑块、极验、连连看等等还有其他）；而且网页间的上下层级关联性做的特别好，如果绕过上一页直接访问下一页数据，...

928 0 0

佑岷

Sikulix运行win2012报错：[error] RunTime:loadLib: opencv_java342.dll (failed) probably dependent libs m...
Sikulix运行在win7上面是好好的，想要移植到win server 2012报错：进入弹出的：https://github.com/RaiMan/SikuliX1/w...

1139 0 0
佑岷

报什么错？

Scrapy中HttpCacheMiddleware定制
Scrapy本身支持请求数据缓存，提供｛DbmCacheStorage，FilesystemCacheStorage｝存储并支持DummyPolicy，RFC2616Poli...

佑岷
2186 2 1
佑岷

创建动态Item目的是为了灵活，若需要区分可以追加一个type field 用type来区分

Scrapy动态创建Item
若项目没有定义Item or 想动态生成时，可以按照如下方式操作：先声明；创建ItemLoader；为Item创建动态属性；为属性赋值通常用在一个spider跑多个...

佑岷
1338 2 0
佑岷

hex转ascii码并且进行html unescape
在获取的json评论中包含如下特殊数据：观察这个类JSON有三处问题： f(....)所有数据在括号内； {}中的最后一个属性："userClientShow": "来自京...

774 0 0
佑岷

Springboot 2.1.9 Jedis偶发READONLY You can't write against a read only slave.
用springboot2.1.9版本时，用redis哨兵模式偶发：百度、google都没翻到材料。最后试了降低jedis版本——将自带的jedis2.9.3降到2.9.0试...

5403 0 0

佑岷

K8S多种时区问题解决方案
POD与NODE不一致这种情况有三种方案：在dockerFile中配置：通过PodPreset配置（需要先启用PodPreset）：通过deployment设置： C...

5835 0 1
佑岷

charles手机安装证书后访问异常
异常信息：查了下是因为apk不受信，需要安装XposedInstaller 并在其中添加JustTrustMe.apk模块保险点：上面两个插件每步安装都重启比较好

2002 0 0