本文仅对elasticSearch(ES)进行初步介绍,有不足与错误之处欢迎指正。
本文仅介绍了ES某些特性,希望能为您技术栈选型提供有价值的参考。
之前对ES的认识仅停留在“全文搜索引擎”、“日志搜集分析系统”上。最近手头一个项目需要进行数据统计分析,大量复杂的sql语句、动态分组、排序和组合查询条件使springJPA+mysql的组合不堪重负,正巧在阅读文档时再次遇到ELK一词,遂决定深入了解一下ES。
这里跳过ES介绍,有兴趣可以查阅官网的中文版文档,当前中文版文档对应ES 2.X版本,而最新英文版对应版本是ES 6.X,所以中文版文档内容过时了,更适合用来了解基本概念和内部实现原理。
根据项目需求,需要ES满足一下要求:
- 提供类似NOSQL数据库的数据查询服务,将MySQL从复杂查询中解放出来
- 不要求数据严格实时,但必须保证数据更新后一段可以接受时间内完成ES内数据的同步
- 提供丰富的查询和统计接口,将程序员从查询功能的重复编码中解放出来
作为NOSQL数据库
ElasticSearch搜索功能基于Lucene实现,将数据对象以JSON格式存储为文档,同时对文档内容进行索引,支持对文档进行检索、排序和过滤,同时支持全文搜索。完全满足作为NOSQL数据库提供查询服务的要求。
数据实时性
官方已经指出ES是NRT(near realtime)的,从文档数据入库到数据可以查询之间有1秒的延迟。
同时,使用Logstash将MySQL数据同步到ES中时,为了降低MySQL查询压力,同步操作设置为每n分钟执行一次。
所以ES中的数据同步会有几分钟的延迟。
查询和统计接口
ES提供了丰富的查询和统计接口,通过向ES服务器发送查询请求URL,查询条件通过RequestBody发送。
以我们应用中的数据统计的几个场景举例:
- 以地市、县区、学校为维度统计学生人数,给出文理、男女、民族等情况的细分人数
get /exam/_search?pretty
{
"size": 0,
"aggs": {
"byCounty": {
"terms": {
"field": "county_id",//#1 以县区对数据进行分组
"size": 10
},
"aggs": {
"bySchool": {
"terms": {
"field": "school_id"//#2 统计县区下各学校考生数
}
},
"bySubject": {
"terms": {
"field": "subject_id"//#3 统计县区下各科目考生数
}
}
}
}
}
}
以上语句实现了按照县区分组,统计每个县区下男女生人数、每个县区下不同科目考生人数。
更重要的是,替换#1处的字段(如city_id/school_id),可以切换统计维度;替换#2#3处的字段(如class_no),可以切换统计项目。
与传统动态组装SQL语句查询数据库的方式相比,使用ES的查询方式的优势有:
省去了编写SQL语句组装功能的工作,改为组装JSON格式的RequestBody
需求变更、数据库结构变化时,省去了修改和测试代码的工作,仍然是操作RequestBody
|
- 对某个科目成绩进行简单分析,得到最大值、最小值、平均值、标准差这些基本数据
get /exam/_search?pretty
{
"size": 0,
"aggs": {
"bySubject": {
"terms": {
"field": "subject_id", // 以科目对成绩数据进行分组
"size": 10
},
"aggs": {
"score_stats": {
"stats": {
"field": "total" // 针对成绩字段,执行stats聚合运算
}
}
}
}
}
}
以上语句实现了以科目对成绩进行分组,每个科目分组下,对成绩进行stats聚合运算,stats是ES提供的聚合运算,返回数据的count、min、max、avg、sum。
ES在以上三个方面都满足了我的需求,可以预见在集成ES后,统计部分功能编码将轻松很多。
针对生产环境部署ES的一点思考
- 由于Logstash需要查询Mysql同步数据,单独启动一个mysql-slave实例,该实例仅对Logstash可见,对appServer不可见,专门为ES数据同步服务
- ES不直接暴露到外网,AppServer作为网关进行请求分发,由appServer提供更灵活的权限管理和安全性保障