webmagic源码简读

webmagic,一个简洁但功能齐全的爬虫框架,其官方文档已经非常详尽,但偏重于使用,该文从源码结构以及细节上进行分析


webmagic组件

webmagic的各个功能分别通过组件来实现,很好的实现了各功能之间的解耦,主要包括四大组件:Scheduler、Downloader、Pipeline、PageProcessor,四大组件通过Spider类进行相互协作完成框架功能

一、Scheduler

抓取url的管理,包含添加待抓取url以及取出需要抓取的url功能,分别通过push方法和poll方法完成两项功能,抓取url进行了抽象,以Request进行表示。

实现类

QueueScheduler:内部以LinkedBlockingQueue实现url队列,添加待抓取url直接以queue.add方法实现,取出抓取url以queue.poll实现。该类继承于DuplicateRemovedScheduler,因此有自动去重的功能。

PriorityScheduler:以优先级作为取出待抓取url的条件,内部以PriorityBlockingQueue作为队列的实现,同样继承于DuplicateRemovedScheduler,拥有去重功能

二、PageProcessor

如何对一个页面内容进行处理,是用户主要需要实现的接口,一般用户需要实现对页面内容的抽取以及更多待抓取url的获取

实现类

SimplePageProcessor:配置一个url正则表达式,自动从页面内容中抽取出对应的url加入抓取队列

三、Pipeline

对PageProcessor的抽取结果进行持久化处理,比如写入文件、存入数据库、或者简单的打印到控制台

实现类

ConsolePipeline:直接将结果输出到控制台

FilePipeline:将抽取结果写入文件进行持久化

四、Downloader

负责对待抓取的url进行下载,可配置下载线程数

实现类

HttpClientDownloader:使用apache HttpClient进行页面的下载功能,实现了代理配置功能

辅助类

一、CountableThreadPool

负责spider的线程管理,实现了一个堵塞线程池,可以实时获取线程池中正在使用的线程以及等待状态的线程数量,线程数的统计以AtomicInteger实现线程安全,内部默认的ExecutorService通过Executors.newFixedThreadPool生成,主要方法execute接受一个Runnable对象作为待执行任务,线程池中无可用线程时会进入阻塞状态

二、Proxy

进行spider的代理管理,抽取为单独的组件可以实现解耦

三、Selector

实现对下载后的页面内容进行选择的功能,主要实现有xpath、css、regex以及jsonPath

四、Request

对抓取url的封装

五、Page

存储抽取的内容以及抓取的url(非线程安全)

配置类

一、Spider

爬虫的入口,对各个组件进行协调,包含一个Downloader,一个PageProcessor,一个Scheduler以及一个PipeLine列表,抓取任务的执行线程调度以CountableThreadPool完成

二、site

抓取站点的配置,包括域名、ua、默认cookie、默认编码、默认http头等

webmagic关于多线程的处理

爬虫程序必然牵涉到多线程处理以实现并行的抓取任务,在webmagic中主要有三处需要对多线程情况进行处理

Scheduler

在同一时间可能会有多个线程对Scheduler进行操作,webmaigic的QueueScheduler实现直接以LinkedBlockingQueue解决该问题

HttpClientDownloader

在对httpclient的获取中,主要是在生成新的httpClient时需要进行多线程的处理,主要代码

当需要获取的httpclient不存在时进开始进行同步处理,在同步代码块中判断是否有对应的httpclient存在,如果没有则生成对应httpclient并加入列表中,该处使用双重检查保证不会重复放入httpclient,进行双重检测是由于未对整个方法进行同步处理,目的是为了性能优化,即不会对存在相应的httpclient进行同步,只对获取不到该对象的情况进行同步

Spider

spider负责对整个抓取过程进行协调,自然避免不了对多线程的处理,该类主要通过ReentrantLock和Condition进行多线程的处理。当爬虫开始执行时,spider持续从scheduler中获取待抓取的url,当待抓取url为空时,该线程进行等待状态,通过waitNewUrl实现

该阻塞状态通过signalNewUrl方法进行解除

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,393评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,790评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,391评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,703评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,613评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,003评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,507评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,158评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,300评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,256评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,274评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,984评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,569评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,662评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,899评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,268评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,840评论 2 339

推荐阅读更多精彩内容