三种分布式爬虫系统的架构方式

分布式爬虫系统广泛应用于大型爬虫项目中,力求以最高的效率完成任务,这也是分布式爬虫系统的意义所在。

分布式系统的核心在于通信,介绍三种分布式爬虫系统的架构思路,都是围绕通信开始,也就是说有多少分布式系统的通信方式就有多少分布式爬虫系统的架构思路。

  1. Redis

    利用redis做分布式系统,最经典的就是scrapy-Redis,这是比较成熟的框架。同时我们也可以利用Redis的队列功能或者订阅发布功能来打造自己的分布式系统。

  2. image

    Redis作为通信载体的优点是读写迅速,对爬虫的速度影响可忽略不 计,使用比较普遍。

主程序示例:

import scrapyfrom scrapy.http import Requestfrom scrapy.selector import HtmlXPathSelectorfrom scrapy.dupefilter import RFPDupeFilterfrom scrapy.core.scheduler import Schedulerimport redisfrom ..items import XiaobaiItemfrom scrapy_redis.spiders import RedisSpiderclass RenjianSpider(RedisSpider):    name = 'baidu'    allowed_domains = ['baidu.com']    def parse(self, response):        news_list = response.xpath('//*[@id="content-list"]/div[@class="item"]')        for news in news_list:            content = response.xpath('.//div[@class="part1"]/a/text()').extract_first().strip()            url = response.xpath('.//div[@class="part1"]/a/@href').extract_first()            yield XiaobaiItem(url=url,content=content)        yield Request(url='http://dig..com/',callback=self.parse)

2.RabbitMQ

RabbitMQ是比较靠谱的消息中间件,得益于它的确认机制,当一条消息消费后如果设置确定模式,那么确认后才会继续消费,如果不确定认,那么这个任务将分配给其他消费者。

image

基于这种确认机制,可以在高可靠性和高数据要求情景中,避免数据抓取的遗漏和丢失。

其设计思路应该是基于mq设计两个接口,一个用于URL的存放,一个用户URL的获取,同时基于Redis的URL去重,通过类似scrapy-redis 的调度使爬虫运行。

主程序示例:

import pikaclass RabbitMQBASE:    def __new__(cls, *args, **kw):        if not hasattr(cls, '_instance'):            org = super(RabbitMQBASE, cls)            cls._instance = org.__new__(cls)        return cls._instance    def __init__(self, use='root', pwd='111'):        user_pwd = pika.PlainCredentials(use, pwd)        self.s_conn = pika.BlockingConnection(            pika.ConnectionParameters(host='1.1.1.1', heartbeat_interval=3600, credentials=user_pwd))    def channel(self):        return self.s_conn.channel()    def close(self):        """关闭连接"""        self.s_conn.close()    @staticmethod    def callback(ch, method, properties, body):        print(" [消费者] %r" % body)class RabbitMQ(RabbitMQBASE):    """    type_:交换机类型fanout、direct、topic    exchange:交换机名字    queue_name:队列名字,为空则随机命名    exclusive:队列是否持久化False持久,True不持久    key_list:消费者的交换机、队列绑定的关键词列表    key:生产者路由的关键词    no_ack:是否确认消息True不确定,False确定    """    def __init__(self, use='root', pwd='Kw7pGR4xDD1CsP*U', type_='direct', exchange='test',                 queue_name=None, exclusive=True, key_list=['test'], key='test', no_ack=True):        RabbitMQBASE.__init__(self, use=use, pwd=pwd)        self.type_ = type_        self.exchange = exchange        self.queue_name = queue_name        self.exclusive = exclusive        self.key = key        self.key_list = key_list        self.no_ack = no_ack    def rabbit_get(self):        """消费者"""        channel = self.channel()        channel.exchange_declare(exchange=self.exchange, exchange_type=self.type_)        if self.queue_name == None:            result = channel.queue_declare(exclusive=self.exclusive)            self.queue_name = result.method.queue        if self.type_ != 'fanout':            for key in self.key_list:                channel.queue_bind(exchange=self.exchange,  # 将交换机、队列、关键字绑定                                   queue=self.queue_name, routing_key=key)        channel.basic_consume(RabbitMQBASE.callback, queue=self.queue_name, no_ack=self.no_ack)        channel.start_consuming()    def rabbit_put(self, message='hello word'):        """生产者"""        channel = self.channel()        channel.exchange_declare(exchange=self.exchange, exchange_type=self.type_)        if self.type_ == 'fanout':            self.key = ""        channel.basic_publish(exchange=self.exchange, routing_key=self.key, body=message)        channel.close()

3.Celery

celery典型的分布式任务队列,常用于异步操作中,如tornado、Django的异步任务中,用celery设计分布式爬虫系统,往往结合网络框架,打造一个爬虫任务接口,提供给其他人使用。

image

同时celery在定时任务方面有着优势,只需要在配置文件中设置一下,就可以定期执行任务,不必自己写定时操作。

celery使用消息中间件,而这个消息中间件,可以使用Redis也可以使用RabbitMQ,但他的调度不必担心,已经封装。

主程序示例:

# -*- coding:utf-8 -*-from celery import Celeryapp = Celery("tasks")app.config_from_object("celeryconfig")  # 指定配置文件@app.taskdef taskA(x, y):    return x + y@app.taskdef taskB(x, y, z):    return x + y + z@app.taskdef add(x, y):    return x + y

注意:上面的程序片段只是片段,用于示例。

综上我们应该清楚在不同的任务场景中使用甚至如何设计自己的爬虫系统,分布式爬虫系统的核心是不同主机的通信。


ID:Python之战

|作|者|公(zhong)号:python之战

专注Python,专注于网络爬虫、RPA的学习-践行-总结

喜欢研究技术瓶颈并分享,欢迎围观,共同学习。

独学而无友,则孤陋而寡闻!


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,723评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,080评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,604评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,440评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,431评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,499评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,893评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,541评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,751评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,547评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,619评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,320评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,890评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,896评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,137评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,796评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,335评论 2 342

推荐阅读更多精彩内容