本文会涉及以下内容:【不定时修改中。。。】
1. pyspider的介绍;
2. 爬虫架构的典型设计;
3. 垂直搜索引擎的初探。
PySpider
之前的爬虫策略很简单,用得python2.7:urllib2 + BeautifulSoup。
这种方式小巧方便,但是面对大规模的爬取需求时就变得冗余麻烦,需要有一个爬虫框架,能够分布式运行,队列控制。
可以简单的认为目前的需求就是一个垂直领域的爬虫框架,对数量可观的网站中的某些确定页面进行周期性的爬取,需要爬取策略定制方便可调整,暂时不需要实时响应。
爬虫框架之前试过scrapy,但是种种原因使用并不成功,于是来了解下pyspider。
特性:
1) web可视化监控;
2) 队列调度与周期控制;
3) 支持JS页面抓取。
4) 。。。pyspider介绍
设计架构:
简单的面见了pyspider,那么如何使用:
pyspider 爬虫教程(一):HTML 和 CSS 选择器
pyspider 爬虫教程(三):使用 PhantomJS 渲染带 JS 的页面
以上所有pyspider的介绍链接均来自开发者的博客,项目已开源GitHub。
垂直搜索引擎
这是针对某一行业或领域的专业搜索引擎,是对网页库中某类专门信息的一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出的搜索引擎服务模式,通过针对某一特定领域、人群或需求提供有一定价值的信息和相关服务。特点是“专、精、深”,具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎显得更专注、具体和深入。
爬虫架构的典型设计
设计参考专利《一种分布式企业信息垂直搜索方法 》墙外