Elasticsearch基础知识

  1. 什么是搜索?

    通过一个关键词或者一段描述,得到你想要的(相关度高)结果。

  2. 关系型数据库实现搜索功能弊端?

    • 性能差, like "%keyword" 无法使用索引。

    • 大量数据写入操作。

    • 大数据表中,修改索引或者表结构。

    • 字段不固定的业务,大数据下字段修改非常消耗资源。

  3. 关系型数据库优势?

    • 通过事务保持数据一致性。
    • 通过join,进行关联查询。
  4. 普通索引?

    普通索引一般是只关系型数据库中的Btree 和 Hash 索引。

  5. 正向索引(forward index)

    正向索引又称正排索引,一个文档通常包含若干个单词,正向索引的结构一般是文档1 -- 单词1 -- 出现频率 -- 出现位置。

    文档1 单词1 出现频率 出现位置 单词2 出现频率 出现位置 ......
    文档2 单词1 出现频率 出现位置 单词2 出现频率 出现位置 ......
    文档3 单词1 出现频率 出现位置 单词2 出现频率 出现位置 ......

    当用户搜索时,扫描索引文件库中索引文档,找出包含关键词的文档,再根据打分模型打分,排出名次呈现给用户。 当搜索索引库中存在海亮数据时,正向索引的数据结构无法满足排名结果的要求。

  6. 倒排索引(inverted index)

    倒排索引又称逆向索引,一个文档包含若干分词,逆向索引的结构一般是关键词1 -- 文档1Id -- 文档2Id

    关键词1 文档1Id 文档2Id ......
    关键词2 文档2Id 文档4Id ......
    关键词3 文档3Id 文档4Id ......

    当用户搜索时,扫描索引文件库中的关键词,再根据关键词寻找包含关键词的所有文档,再根据打分模型打分,排出名次呈现给用户。

  7. 词频(Term Frequency)简写TF,指的是一个词在文档中出现的次数,统计出来的就是词频(TF),计算词频时,会过滤到干扰词。词频(TF)= 某个词在文档中出现次数 / 文档的总次数。或者词频(TF)= 某个词在文档中出现次数 / 该文档出现次数最多的词的出现次数。

  8. 逆文档频率(Inverse Document Frequency) 简写IDF,用统计学语言,就是在词频的基础上,要对每个次分配一个“重要性”权重,最常见词给与最小权重;较常见的次给与较小权重,较少见的词给与较大的权重,这个权重叫做逆文档频率(IDF),其大小与一个词的常见程度成反比。

  9. Lucence简介

    lucence仅是一个jar包,帮我们穿件倒排索引,提供复杂的API。

  10. Lucence做集群实现搜索,有哪些问题?

    • 节点一旦宕机,节点数据丢失,后果不堪设想,可用性差。
    • 需要自己维护集群,自己创建管理索引。
    • 单台节点承载请求能力有限,需要人工做负载。
  11. ES =搜索引擎,对吗?

    ES是分布式的搜索、存储和数据分析引擎,不仅仅做搜索引擎。

  12. ES 特点? 分布式、高性能、高可用、可伸缩和易维护。

  13. ES优点?

    • 面向开发者友好,屏蔽了Lucence复杂特性,集群自动发现。
    • 自动维护在多个节点上建立数据。
    • 搜索请求的负责均衡。
    • 自动维护冗余副本,保证了部分节点宕机的情况下,不会丢失数据。
    • 基于Luncence提供了很多高级符合查询、聚合分析、基于地理位置查询等高级功能。
    • 开箱即用,门槛低,上手简单。
    • 可构建若干台服务器的大型分布式集群。处理PB级别数据。
    • 相对传统数据库,提供全文检索,同义词处理,相关度排名。
    • 提供聚合分析及海量数据的近实时处理。
  14. ES应用领域?

    • 搜索功能的全文检索、高亮和搜索推荐。
    • 处理用户行为日志(用户点击、浏览、收藏和评论)。
    • 数据统计、数据分析和数据挖掘统计。
    • ELK Elasticsearch(数据存储)、Logstach(日志采集)和 Kibana(可视化)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,802评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,109评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,683评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,458评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,452评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,505评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,901评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,550评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,763评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,556评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,629评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,330评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,898评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,897评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,140评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,807评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,339评论 2 342