搜索:发展/目标/技术架构/爬虫框架/爬虫类型/抓取策略/暗网

1、搜索引擎的发展过程:

(1)分类目录的一代,导航时代,Yahoo和hao123都是这个时代的代表。通过人工搜集整理,把属于各个类别的高质量网站或网页分类,这种方式扩展性不强,绝大部分网站不能被收录;
(2)文本检索的一代,文本检索的一代采用经典的信息检索模型,如布尔模型、向量空间模型或者概率模型,来计算用户查询关键词和网页文本内容的相关程度。早期很多搜索引擎都采用这种模式;
(3)链接分析的一代,这一代搜索引擎利用了网页之间的链接关系,并深入挖掘和利用了网页链接所代表的含义。通常而言,网页链接代表了一种推荐关系,所以通过链接分析可以在海量内容中找出重要的网页。被推荐次数多的网页其实代表了其具有流行性,搜索引擎通过结合网页流行性和内容相似性来改善搜索质量。Google于1998年成立,它率先提出并使用PageRank链接分析技术,大幅度提高了搜索质量。目前几乎所有的搜索引擎都采取了链接分析技术,但是这种技术并未考虑用户的个性化要求,所以只要输入的查询请求相同,所有用户都会获得相同的搜索结果。另外很多网站为获取更高的搜索排名,针对链接分析算法提出不少链接作弊方案,这样导致搜索结果质量变差。
(4)用户中心的一代,第三代即理解用户需求为核心的一代搜索引擎,千人千面。目前搜索引擎大都致力于解决如何能够理解用户发出的查询词背后包含的真正需求的问题。目前的搜索引擎做了很多技术方面的尝试,如利用用户发送查询词时的时间和地理位置信息、利用用户过去发出的查询词及相应的点击记录等历史信息手段,来试图理解用户此时此地的真正需求。

2、搜索引擎3个目标

更全 更快 更准
索引
索引压缩
排序
链接分析
反作弊
用户研究
云存储
爬虫
网页去重
缓存
  • 搜索查询的平均长度是2.7个单词;
  • 搜索引擎本质上是一个匹配的过程;

3、搜索引擎的技术架构

互联网
网络爬虫(将网络信息获取到本地)
网页去重
反作弊—云存储和云计算平台(倒排索引— 内容相似性;链接关系—链接分析)
网页排序
cache系统
查询分析(用户)

4、搜索引擎如何处理搜索请求

(1)搜索引擎收到查询词;
(2)对查询词进行分析(结合查询词和用户信息来推导用户对真正意图);
(3)先在缓存中进行查找,搜索引擎的缓存系统中存储了不同查询意图对应的查询结果;
(4)如果缓存功能无法满足要求,就需要调用“网页排序”模块(网页排序的两个最重要的参考依据:内容相似性和网页重要性)

5、通用爬虫框架

(1)精心挑选部分互联网页面作为种子URL,将种子URL放入待抓取URL队列中;
(2)爬虫从待抓取的URL队列中依次进行抓取,将URL通过DNS进行解析,把链接地址转化为网站服务器对应的IP地址;
(3)然后将IP地址和网页相对路径交给网页下载器,对于已经下载下来的网页一方面将其储存到网页库中,等待建立索引后进行后续处理;
(4)另一方面将已经下载到网页的URL放入到已抓取URL中,防止重复抓取;

6、爬虫的3种基本类型

  • batch crawler批量爬虫:有明确的抓取范围和抓取目标,当爬虫达到抓取的目标后即停止抓取;(batch 批量)
  • incremental crawler增量爬虫:会持续不断的搜索、更新,商业搜索引擎使用 的基本上都是这个类型的爬虫;(incremental 增量的)
  • focused crawler垂直爬虫:针对垂直行业,在爬取阶段就要对内容进行识别;

7、抓取策略

(1)宽度遍历优先策略(Breath First):遇到新的链接就加到待抓取列表后面;
(2)非完全PageRank策略(Partial PageRank):PageRank是个全局算法,所有页面都下载完成后,其计算结果才是可靠的;非完全对意思是新下载的页面攒够n个,就重新计算一遍新的pagerank;
(3)OCIP策略(Online Page Importance Computation):在线页面重要性计算,已经下载的页面会将自己的现金cash清空,平分到链接页面,接下来下载现金最多的页面;
(4)大站优先策略(Larger Sites First)

8、网页更新策略

(1)历史参考策略:历史频繁更新的网页将来也会频繁的更新,可以根据曾经更新周期的情况,决定将来抓取的周期;
(2)用户体验策略:用户关注度高的更新频率较高;
(3)聚类抽样策略:先对网页进行分类,再在不同的类别中选出有代表性的网页,根据这些网页的更新周期决定整个聚类的爬取周期;

9、暗网抓取

  • 暗网爬虫为了能够挖掘数据库的内容,必须模拟人的行为,填写内容并填写表单;
  • 对于暗网爬虫来说,技术难点有2个:一是查询的组合太多,如果一一遍历会给目标网站造成太大的压力,如何精心组合查询条目是个挑战;二是查询的文本框,爬虫要怎样才能恰到好处的填入适当的内容;
  • 查询组合问题:富含信息查询模版(Informative Query Templates):如果根据不同维度的查询模版得到的查询结果,如果相差较大,则这个查询模版就是富含信息查询模版;
  • 文本框填写问题:人工为网站提供一些初始的查询词汇,再从查询结果中提取出新的关键词,将这些词汇作为搜索词语再次输入到搜索框中进行下次查询,最终直到再也无法得到新的查询词汇。通过这种人工启发结合递归迭代的方式,尽可能的覆盖数据库里的记录;

10、分布式爬虫

  • 主从式分布爬虫(Master-Slave)
  • 对等式分布爬虫(Peer to Peer)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容