ElasticSearch初探

本文仅对elasticSearch(ES)进行初步介绍,有不足与错误之处欢迎指正。
本文仅介绍了ES某些特性,希望能为您技术栈选型提供有价值的参考。

之前对ES的认识仅停留在“全文搜索引擎”、“日志搜集分析系统”上。最近手头一个项目需要进行数据统计分析,大量复杂的sql语句、动态分组、排序和组合查询条件使springJPA+mysql的组合不堪重负,正巧在阅读文档时再次遇到ELK一词,遂决定深入了解一下ES。

这里跳过ES介绍,有兴趣可以查阅官网的中文版文档,当前中文版文档对应ES 2.X版本,而最新英文版对应版本是ES 6.X,所以中文版文档内容过时了,更适合用来了解基本概念和内部实现原理。

根据项目需求,需要ES满足一下要求:
  1. 提供类似NOSQL数据库的数据查询服务,将MySQL从复杂查询中解放出来
  2. 不要求数据严格实时,但必须保证数据更新后一段可以接受时间内完成ES内数据的同步
  3. 提供丰富的查询和统计接口,将程序员从查询功能的重复编码中解放出来
作为NOSQL数据库

ElasticSearch搜索功能基于Lucene实现,将数据对象以JSON格式存储为文档,同时对文档内容进行索引,支持对文档进行检索、排序和过滤,同时支持全文搜索。完全满足作为NOSQL数据库提供查询服务的要求。

数据实时性

官方已经指出ES是NRT(near realtime)的,从文档数据入库到数据可以查询之间有1秒的延迟。

同时,使用Logstash将MySQL数据同步到ES中时,为了降低MySQL查询压力,同步操作设置为每n分钟执行一次。

所以ES中的数据同步会有几分钟的延迟。

查询和统计接口

ES提供了丰富的查询和统计接口,通过向ES服务器发送查询请求URL,查询条件通过RequestBody发送。

以我们应用中的数据统计的几个场景举例:

  1. 以地市、县区、学校为维度统计学生人数,给出文理、男女、民族等情况的细分人数
get /exam/_search?pretty
{
  "size": 0,
  "aggs": {
    "byCounty": {
      "terms": {
        "field": "county_id",//#1 以县区对数据进行分组
        "size": 10
      },
      "aggs": {
        "bySchool": {
          "terms": {
            "field": "school_id"//#2 统计县区下各学校考生数
          }
        },
        "bySubject": {
          "terms": {
            "field": "subject_id"//#3 统计县区下各科目考生数
          }
        }
      }
    }
  }
}

以上语句实现了按照县区分组,统计每个县区下男女生人数、每个县区下不同科目考生人数。

更重要的是,替换#1处的字段(如city_id/school_id),可以切换统计维度;替换#2#3处的字段(如class_no),可以切换统计项目。

与传统动态组装SQL语句查询数据库的方式相比,使用ES的查询方式的优势有:

  1. 省去了编写SQL语句组装功能的工作,改为组装JSON格式的RequestBody

  2. 需求变更、数据库结构变化时,省去了修改和测试代码的工作,仍然是操作RequestBody

|

  1. 对某个科目成绩进行简单分析,得到最大值、最小值、平均值、标准差这些基本数据
get /exam/_search?pretty
{
  "size": 0,
  "aggs": {
    "bySubject": {
      "terms": {
        "field": "subject_id", // 以科目对成绩数据进行分组
        "size": 10
      },
      "aggs": {
        "score_stats": {
          "stats": {
            "field": "total" // 针对成绩字段,执行stats聚合运算
          }
        }
      }
    }
  }
}

以上语句实现了以科目对成绩进行分组,每个科目分组下,对成绩进行stats聚合运算,stats是ES提供的聚合运算,返回数据的count、min、max、avg、sum。

ES在以上三个方面都满足了我的需求,可以预见在集成ES后,统计部分功能编码将轻松很多。

针对生产环境部署ES的一点思考

image.png
  1. 由于Logstash需要查询Mysql同步数据,单独启动一个mysql-slave实例,该实例仅对Logstash可见,对appServer不可见,专门为ES数据同步服务
  2. ES不直接暴露到外网,AppServer作为网关进行请求分发,由appServer提供更灵活的权限管理和安全性保障
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容