爬虫中 阻塞队列和 线程池 造成的类死锁问题

很早就想尝试一下爬虫,相关的博文已经很多,这里记下几个困扰了我挺久的问题。
既然说的是死锁,我们来复习一下死锁的四个条件:

  • 循环等待
  • 占有且请求(请求与持有)
  • 互斥(资源有限,每次只能被一个或一类线程使用)
  • 不可抢占(不可剥夺,无优先级)
    四个条件中不可被破坏的是互斥条件,即多进程同时访问会有数据的不一致性。

言归正传,首先在我的实现中自定义了线程池

    public ThreadPoolExecutor getFixedThreadPool(int corePoolSize,int maxPoolSize,int waitingQueuesize) {
        return new ThreadPoolExecutor(corePoolSize, maxPoolSize, 60L, TimeUnit.SECONDS, 
                new ArrayBlockingQueue<Runnable>(waitingQueuesize),new RejectedExecutionHandler() {
                    @Override
                    public void rejectedExecution(Runnable run, ThreadPoolExecutor executor) {
                        if(!executor.isTerminated())
                            try {
                                executor.getQueue().put(run);
                            } catch (Exception e) {
                                LOG.error("Inner Exception in workQueue, putting task  error",e);
                            }
                    }
                });
        
        //return Executors.newFixedThreadPool(2*nThread);
    }

这是一个类newFixedThreadPool的操作,自定义了等待队列的大小,同时队列满时阻塞了入队操作,避免Int.maxValue造成的溢出或是过多的任务堆积,兼具fixedThreadPool和cachedThreadPool的优点,可这里阻塞的拒绝策略让我在后续的实现中饱受折磨...

然后为了避免任务都被阻塞在线程池,我又额外开了一个阻塞队列存储爬出来的待爬URL,然后用一个监控线程监控这个队列,爬虫任务相当于生产者生产待爬URL,监控线程相当于消费者消费产生的URL,而这个队列就是仓库了,完美的设计。。。

public class WatchTask implements Runnable{
        @Override
        public void run() {
            while(isCrawl) {
                try{
                    String url=urlQueue.poll(1000, TimeUnit.MILLISECONDS);
                    while(StringUtils.isNotBlank(url) && isCrawled(url)) url=urlQueue.poll(100, TimeUnit.MILLISECONDS);
                    if(StringUtils.isNotBlank(url)) executor.execute(new WorkTask(url));
                }catch(Exception e) {
                    LOG.error("Taking url from blocking queue error, urlQueue size:"+urlQueue.size(),e);
                }
                lastCur=System.currentTimeMillis();
                LOG.info("WatchTask running, urlQueue:"+urlQueue.size());
            }
        }
        
    }
    
    public class WorkTask implements Runnable{
        private String seedUrl=null;
        
        public WorkTask(String seedUrl) {
            this.seedUrl=seedUrl;
        }
        
        @Override
        public void run() {
            List<String> urls;
            try {
                urls=crawler.doCrawl(seedUrl);
                if(urls==null || urls.size()==0) return;
                for(String url:urls) {
                    if(StringUtils.isNotBlank(url) && !isCrawled(url)) {
                        urlQueue.put(url);
                    }
                }
            }catch(Exception e) {
                LOG.error("Puting url to blocking queue error, size:"+urlQueue.size(),e);
            }
        }
    }

在程序中URL队列的大小要远大于线程池等待队列,明眼的朋友到这里应该看出我的操作问题在哪里了:


死锁示意图

于是,将额外的阻塞队列和监控任务去掉,工作线程改成这样,颇有种自给自足的感觉:

    
    public class WorkTask implements Runnable{
        private String seedUrl=null;
        
        public WorkTask(String seedUrl) {
            this.seedUrl=seedUrl;
        }
        
        @Override
        public void run() {
            List<String> urls;
            try {
                urls=crawler.doCrawl(seedUrl);
                if(urls==null || urls.size()==0) return;
                for(String url:urls) {
                    if(StringUtils.isNotBlank(url) && !isCrawled(url)) {
                        executor.execute(new WorkTask(url));
                    }
                }
            }catch(Exception e) {
                LOG.error("Puting url to blocking queue error, size:"+urlQueue.size(),e);
            }
        }
    }

然而,实际运行中发现能爬取的数据条数在线程池最大线程数左右,往后程序就像挂掉一样虽然在跑但什么输出都没有,肯定又是阻塞了!
经过一番分析,发现问题回到了线程池本身的等待队列,圆圈代表线程池,黑点表示线程非空闲:


线程池死锁示意图

就这样,又一个死锁创造出来了,其原因归根到底还是一个种子url能爬取出来的子URL太多了——几百甚至几千上万个(没错我在爬某网用户信息,子url是用户的粉丝或其关注的人,因为一些需求不能进行部分舍弃),既然如此那就把等待队列设至大一点,对子url太多的,全部舍弃,至于何为多大家自有判断,我用子url数和等待队列大小关系来决定,当等待队列中url数量超过等待队列容量的一半,或子url数量超过队列数量一半退出:

    public class WorkTask implements Runnable{
        private String seedUrl=null;
        
        public WorkTask(String seedUrl) {
            this.seedUrl=seedUrl;
        }
        
        @Override
        public void run() {
            List<String> urls;
            try {
                urls=crawler.doCrawl(seedUrl);
                int size=tpe.getQueue().size();
                //无子url,或队列中任务数量超过容量一半,或url数量超过队列数量一半,避免崩掉故退出
                if(urls==null || urls.size()==0 || size>halfQueueSize || urls.size()>halfQueueSize) return;
                System.out.println("****************add to queue with size"+urls.size());
                for(String url:urls) {
                    if(StringUtils.isNotBlank(url) && !isCrawled(url)) {
                        executor.execute(new WorkTask(url));
                    }
                }
            }catch(Exception e) {
                LOG.error("Puting url to blocking queue error, size:"+urlQueue.size(),e);
            }
        }
    }

至此,终于把死锁的问题解决了,但是爬虫跑了一会ip就被封了,下一步是使用代理。

本文为本人解决实际问题的记录,有任何高见欢迎留言。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容

  • 本文是我自己在秋招复习时的读书笔记,整理的知识点,也是为了防止忘记,尊重劳动成果,转载注明出处哦!如果你也喜欢,那...
    波波波先森阅读 11,231评论 4 56
  • 为什么使用线程池 当我们在使用线程时,如果每次需要一个线程时都去创建一个线程,这样实现起来很简单,但是会有一个问题...
    闽越布衣阅读 4,276评论 10 45
  • 1.ios高性能编程 (1).内层 最小的内层平均值和峰值(2).耗电量 高效的算法和数据结构(3).初始化时...
    欧辰_OSR阅读 29,293评论 8 265
  • 尿毒症透析 我们生活中常会听说透析这个词,那么具体什么是透析呢?所谓透析,是通过小分子经过半透膜扩散到水的原理,将...
    jw8868阅读 296评论 0 0
  • 晴天入夜絜云翔,断续轻风过粤江。 璀璨霓灯迷岸际,斑斓碧影映穹苍。 扶摇广宇千寻塔,漫卷浮波百尺廊。 彩舸穿梭人攒...
    海1619阅读 183评论 0 10