python最强的代理池,突破IP的封锁爬取海量数据(送PDF丶教程)

一个强大到超乎你的想象的异步IP池项目——async-proxy-pool

随着大型网站反扒机制的增强,更改IP登陆已经成为一种最高效的方式,为此打造一款超强IP池项目,采用最新最快的Python技术——异步(Async )。编写了一个免费的异步爬虫代理池,以 Python asyncio 为基础,充分利用 Python 的异步性能,异步处理比同步处理能提升成百上千倍的效率,速度堪比GO语言。


项目介绍

本项目通过爬虫抓取互联网上免费代理网站的IP,并且进行异步检测是否可用,如果可用就放入数据库。定时对数据库中的代理进行维护,然后通过web api的形式供外部使用。

项目运行环境

项目使用了 sanic,一个异步网络框架。所以建议运行 Python 环境为 Python3.5+,并且 sanic 不支持 Windows 系统,Windows 用户可以考虑使用 Ubuntu on Windows。

总体架构


项目主要几大模块分别是爬取模块,存储模块,校验模块,调度模块,接口模块。

爬取模块crawler.py

负责爬取代理网站,并将所得到的代理存入到数据库,每个代理的初始化权值为 INIT_SCORE。

存储模块database.py

封装了 Redis 操作的一些接口,提供 Redis 连接池。

校验模块validator.py

验证代理 IP 是否可用,如果代理可用则权值 +1,最大值为 MAX_SCORE。不可用则权值 -1,直至权值为 0 时将代理从数据库中删除。

调度模块scheduler.py

负责调度爬取器和校验器的运行。

接口模块webapi.py

使用 sanic 提供 WEB API (服务器提供接口)。

如何使用


安装 Redis

项目数据库使用了 Redis,Redis 是一个开源(BSD 许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。所以请确保运行环境已经正确安装了 Redis。安装方法请参照官网指南。

项目源码

点击关注、转发、私信小编"史上最强代理池",就能免费获取强大的异步爬虫代理池项目源码。

安装依赖

$ pip install -r requirements.txt

使用API获取代理

运行代码后,访问http://127.0.0.1:5000/进入主页,如果显示'Welcome',证明成功启动。


访问http://127.0.0.1:5000/get可以获取一个可用代理。


也可以在程序代码中用相应的语言获取,例如:

import requests

from bs4 import BeautifulSoup

import lxml

def get_proxy():

r = requests.get('http://127.0.0.1:5000/get')

proxy = BeautifulSoup(r.text, "lxml").get_text()

return proxy

Sanic 性能测试


使用 wrk 进行服务器压力测试。基准测试 30 秒, 使用 12 个线程, 并发 400 个 http 连接。测试 http://127.0.0.1:3289/

$ wrk -t12 -c400 -d30s http://127.0.0.1:3289/

Running 30s test @ http://127.0.0.1:3289/

12 threads and 400 connections

Thread Stats Avg Stdev Max +/- Stdev

Latency 34.63ms 12.66ms 96.28ms 58.07%

Req/Sec 0.96k 137.29 2.21k 73.29%

342764 requests in 30.10s, 49.69MB read

Requests/sec: 11387.89

Transfer/sec: 1.65MB

⭐️ Requests/sec: 11387.89

我们看到了什么?平均每秒钟11387.89个请求,就问你们怕不怕。机器性能更好一下,就是一波DOS攻击了。

实际代理性能测试

实测效果

https://taobao.com(测试淘宝)

测试代理: http://localhost:3289/get/20

测试网站: https://taobao.com/

测试次数: 1000

成功次数: 984

失败次数: 16

成功率: 0.984

https://baidu.com(测试百度)

测试代理: http://localhost:3289/get/20

测试网站: https://baidu.com

测试次数: 1000

成功次数: 975

失败次数: 25

成功率: 0.975

</pre>

https://zhihu.com(测试知乎)

测试代理: http://localhost:3289/get/20

测试网站: https://zhihu.com

测试次数: 1000

成功次数: 1000

失败次数: 0

成功率: 1.0

</pre>

可以看到其实性能是非常棒的,成功率极高。

最后,想学习Python的小伙伴们!

从0到1完整学习资料 视频 源码 精品书籍 一个月经典笔记和99道练习题及答案免费获取

进群:984632579 


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容

  • 这是一部拍摄于 1928 年的默片,电影几乎没有对白,只在关键情节处打出整幅画面的字幕,好比是影片的必要停顿,不突...
    招财小能手阅读 1,062评论 4 0
  • 我们 我在看海鸥 你在看我 海鸥是我的风景 我是你的风景 这样甚好 只是我希望 你的世界更大更远 目光更坚定 我深...
    张自芳阅读 403评论 0 2
  • 长沙周边很多景点,攸县的酒埠江是这次郊游目的地。 慢悠悠徒步三个小时,还好,身体没任何不适。回来有点晚,只是泡了热...
    周湘泉阅读 96评论 0 1
  • # 我是怎么开发一个小型java在线学习网站的 一直想做一个自己的网站(非博客),但是又不知道做什么内容的好,又一...
    蓝猫163阅读 1,089评论 1 8
  • 人性之恶,譬如潘拉多盒子,在开始时最容易控制。一旦打开盒子,靠自身将难以控制。做到自律的条件给自己设定底线,而且这...
    春到花香处处秀阅读 142评论 0 0