中乘风 - 简书

发简信

中乘风

5
关注
51
粉丝
28
文章
32143

字数
67

收获喜欢
5

总资产

IP属地：宁夏

中乘风

一看就懂！【英雄联盟锐雯】与 Python 详解设计模式之门面模式
大家如果喜欢高质量的 Python 文章，可以在掘金找我：掘金个人主页设计模式（Design Pattern）是一套被反复使用、多数人知晓的、经过分类的、代码设计经验的总结...

677 0 1
中乘风

我已经用celery实现了动态增删改任务，并且集成到django。由于它本身不提供动态增删任务，所以整个过程也是曲折。早知道能用apscheduler，我就不费那个事了……。但celery也有它的长处，毕竟稳定又分布式

Python定时任务对比-schedule & Celery & APScheduler
总结使用定时任务，开源库或自写一个。比较简单的方式是：或是协程方式 celery apscheduler schedule 对比从顺序可以看出，一个比一个轻量级。 ce...

hugoren
9679 4 7

中乘风

Scrapy框架-通过scrapy_splash解析动态渲染的数据
前言对于那些通过JS来渲染数据的网站，我们要解析出它的html来才能取到想要的数据，通常有两种解决办法：1、通过selenim调用浏览器（如chrome firefox等）...

1597 0 2
中乘风

blerli
写了 0 字，被 2 人关注，获得了 0 个喜欢
中乘风

Scrapy下载图片（下，图片中文字识别）
这里增加应用场景，让图片下载结合自动识别，实现识别转换图片中的电话号码。背景在爬取广西人才网的过程当中，发现广西人才网企业联系电话那里不是str，而是将电话生成了一张图片...

1015 0 0
中乘风

Scrapy框架--通用爬虫Broad Crawls（下，具体代码实现）
通过前面两章的熟悉，这里开始实现具体的爬虫代码广西人才网以广西人才网为例，演示基础爬虫代码实现，逻辑：配置Rule规则:设置allow的正则-->设置回调函数通过回调...

473 0 0
中乘风

Scrapy笔框架--通用爬虫Broad Crawls（中）
Rule的参数用法跟踪Rule代码看它的参数： link_extractor完成url的抽取，它就是交给CrawlSpider用 callback是回调函数 cb_kwar...

672 0 0

中乘风

Scrapy框架--通用爬虫Broad Crawls（上）
通用爬虫(Broad Crawls)介绍 [传送：中文文档介绍]，里面除了介绍还有很多配置选项。通用爬虫一般有以下通用特性: 其爬取大量(一般来说是无限)的网站而不是特定的...

976 0 2
中乘风

Python/MySQL时间的实际应用记录
前言网上关于mysq时间、python时间与时间戳等文章很多，翻来翻去找不到头绪，根据不同博客的写法，挑了几个来测试，这里记录一下。况且，不以实际需求为前提的博文，就是瞎...

858 0 1
中乘风

Python 给字符串进行加密，生成唯一固定长度字符串
背景有时候爬虫爬过的url需要进行指纹核对，比如Scrapy就是进行指纹核对，如果是指纹重复则不再爬取。当然在入库的时候我还是需要做一次核对，否则如果爬虫有漏掉，进入数据库...

1210 0 0
中乘风

Python-网页转义字符及正则全文匹配
前言大部分情况下，通过request去请求网页，response.text返回来的都是正常值，但是有一些反爬虫比较严重的网站(比如知乎)就不会是这样。知乎会返回转义字符，例...

1185 0 0
中乘风

Redis-redis异常解决以及日常命令：MISCONF Redis
由于主动停止爬虫造成的报错近期集成了scrapy_redis和bloomfilter，但是在运行几分钟后，redis出现报错： MISCONF Redis is confi...

3236 0 0

中乘风

一学就会的django项目服务器部署nginx-uwsgi-django/build
一、前言需要在阿里云服务器部署Django-restframework框架，一开始不清楚情况，网上找了很多的文章和办法，东拼西凑也没有能够完全实现nginx和uwsgi的互...

1243 0 7
中乘风

Docker-通过docker打包scrapyd服务并启动
前言这里尝试用docker做个简单的服务启动，只要能够正常启动scrapyd，并且外部可以对其进行访问即可。至于项目打包和利用数据卷进行持久化到下一篇文章再写，到时候要将...

2651 3 1
中乘风

MacOSX安装OpenCC实现繁体字转简体字
由于项目需求，要将繁体字转成简体字。网上一直没有头绪，有些说用opencc-python，有些则说用OpenCC。我也找了很久，最后才实现，这里记录一下。 OpenCC的gi...

2251 0 1
中乘风

解决mysql存储特殊文字(表情符号)utf8mb4
一、背景爬取数据过程中，会遇到一些特殊的字符入库出错的问题，比如二进制数据、比如特殊文字（类似QQ表情）等。这样的标题，后面就带有一个表情。在mysql存储的时候，报错...

6217 0 2
中乘风

Scrapy框架-图片下载功能
其实文件下载也差不多前言在日常爬取的过程中，图片下载还是挺多的，有时候可能纯粹是爬取图片，比如妹子图、动态图、表情包、封面图等，还有些时候是要进行验证码识别，所以需要用到...

2130 0 1

中乘风

爬虫代码编写中会遇到的字符处理的坑
常见报错信息报错信息：意思是只能插入单行，不能插入多行数据报错信息：意思是数据库字段长度不够报错信息：意思是键值错误，情况一般是CSS选择器在页面获取不到对应的值...

716 0 0
中乘风

Scrapy框架-模拟登录之JWT验证及post特殊格式数据（json）
一、背景之前有记录过普通的scrapy模拟登录，这种方法可以满足了日常爬虫的登录需求。但是技术一直在进步，近几年前后端分离的趋势越来越好，很多web都采用前后端分离的技术...

2022 0 3
中乘风

在阿里云服务器使用scrapyd部署scrapy项目
前言分布式爬虫，总归是要上到服务器的。这里先讲解如何在服务器上配置和部署scrapyd，主要的点还是在scrapyd和redis的conf配置文件上。其实到末尾我已经实现...

2588 0 2

个人介绍

中乘风，生于海南，中国《英雄联盟》电子竞技职业选手，RNG战队上单。 2015年加入RNG战队并帮助队伍获得2017年LPL春季赛亚军、2017年LPL夏季赛亚军、2017年全球总决赛四强、2018年LPL春季赛冠军、2018年MSI季中赛冠军、RNG队伍2018英雄联盟洲际赛冠军（姿态出战）等荣誉。