GitHub星标数超4万的火爆之作——ElasticSearch，你值得拥有！

Hello，今天给各位童鞋们分享ElasticSearch，赶紧拿出小本子记下来吧！

（一）介绍

ElasticSearch的目标就是实现搜索。在数据量少的时候，我们可以通过索引去搜索关系型数据库中的数据，但是如果数据量很大，搜索的效率就会很低，这个时候我们就需要一种分布式的搜索引擎。Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。

ES主要用于全文检索、结构化搜索以及分析。ES的应用十分广泛，比如维基百科、Github等都使用ES实现搜索。

（二）核心概念理解

2.1 数据结构

ES既然是用来搜索的，那么它必然也需要存储数据。在Mysql等关系型数据库中，数据的存储遵循下面的逻辑：

一个数据库（database）中有多个表（tables），每个表有多行数据（rows），每一行数据由多个字段（columns）组成。

ES中的存储是这样的：

一个索引（indeces）相当于一个数据库（database），每个索引中有多个类型types（相当于表结构），每个索引中有多个documents（相当于行），每个documents由多个fields组成（相当于字段）。

你可以把ES理解为他是一个面向文档的数据库。下面用一张图描述ES和关系型数据库之间的相似之处：

值得注意的是，在ES7.x版本中，types将慢慢被遗弃，在8.x版本中，types将会彻底弃用。

2.2 索引（indeces）和文档（documents）

ES中的索引和Mysql中的索引不是同一种东西，ES中的索引是一个文档的集合，索引就是一个数据库。

前面说了ES是面向文档的，文档是ES中最重要的单位，文档就是一条条的数据。文档中有几个重要的概念：

1、一篇文档中包含多个key：value

2、文档其实就是一个JSON字符串

2.3 分片

ES是一个分布式搜索引擎，分片就是把一堆数据分布到多个分片中。而索引是对每个分片的一个备份，这些副本同样能处理查询请求。

现在假设集群有两个node节点，设置分片数是5个，副本数是1个，那么数据存储结构将变成下面这样，可以保证副本和分片在不同的节点上：

2.4 倒排索引

为什么ES的搜索这么快，和其中所使用的倒排索引也有一定的关系。倒排索引建立的是分词和文档之间的映射关系。下面通过一个简单的例子来讲解一下什么是倒排索引

原来的数据中我们通过文档ID去关联标签，但是在查询时就需要遍历所有文档。通过倒排索引，我们可以通过关键词来找到最匹配的文档。

（三）ES的基本操作

ES是基于Restful风格进行操作的，因此对于习惯了写crud的程序员来说，ES很容易上手。ES的操作可以使用Kibana，也可以使用Postman直接调用，因为归根结底它就是一个restful的操作。我这里使用Idea的ES插件直接调用。

3.1 创建文档

PUT http://ip:port/索引名/类型名/文档id

{

"key":"value"

}

因为类型名在后续的版本中将会被删除，这里可以用_doc代表默认类型：

PUT http://ip:port/索引名/_doc/文档id

下面给出操作截图

通过put创建一个索引之后，我们可以在head中看到对应的数据

3.2 创建带有数据类型的索引

3.1中创建数据时，没有指定具体的数据类型，我们当然也可以为索引指定数据类型

PUT http://ip:port/索引名

参数示例：

{

"mappings": {

"properties": {

"name": {

"type": "text"

"address": {

"type": "text"

}

ES中的核心数据类型如下：

（1）字符串类型： text, keyword

（2）数字类型：long, integer, short, byte, double, float, half_float, scaled_float

（3）日期：date

（4）日期纳秒：date_nanos

（5）布尔型：boolean

（6）Binary：binary

（7）Range: integer_range, float_range, long_range, double_range, date_range

3.3 查看索引或者文档的数据

通过GET请求可以查看索引以及文档的信息：

GET http://ip:port/索引名 #查看索引

GET http://ip:port/索引名/类型名/文档ID #查看文档

3.4 修改数据

修改数据和创建数据一样，通过PUT操作就会更新原来的数据：

PUT http://ip:port/索引名/类型名/文档id

{

"key":"value"

}

如果是修改的话，响应结果中的version就会增加。

另外一种方法是使用Post请求：

POST http://ip:port/索引名/类型名/文档id/_update

参数实例：

{

"doc": {

"name": "javayz4"

}

更推荐使用这种方式，如果使用PUT方法忘了加某个key，更新就会变成新增

3.5 删除数据

通过DELETE的方式删除数据

DELETE http://ip:port/索引名/类型名/文档id #删除具体的文档

DELETE http://ip:port/索引名 #删除索引

（四）ES的搜索操作

ES最重要的就是它的搜索操作了。

4.1 简单搜索

直接将搜索的参数带到链接中：

GET http://ip:port/索引名/_search?q=key:value

结果如下：

4.2 通过param传递参数

除了将参数放到链接当中，还可以将参数通过JSON请求体的方式传递，其中from和size是分页的参数，query中传递查询条件，_source表示结果中要展示的列，不写就表示展示所有。

GET http://ip:port/索引名/_search

参数示例：

{

"from": 0,

"size": 20,

"query": {

"match": {

"name": "javayz2"

}

"_source": ["name","address"]

}

除了上面示例中的这些参数之外，还有很多参数可以使用，比如排序：

"sort": [

{

"age": {

"order": "desc"

}

]

多条件查询：must表示下面的两个条件都要满足，还可以填should，表示任意满足其中一个条件即可，或者是must_not，表示must的相反值

"query": {

"bool": {

"must": [

{

"match": {

"name": "javayz"

}

{

"match": {

"address": "hz"

}

]

}

如果你的数据中存在集合，可以通过空格对多个条件进行查询：

查询过程中还支持高亮查询

"highlight":{

"pre_tags": "<em>",

"post_tags": "</em>",

"fields": {

"name": {}

}

（五）分词器

所谓分词器，就是将一段话分成一个个关键字，搜索时就按照这些关键字进行搜索。比较好用的分词器有中文的IK分词器。

基本使用

给出下载链接：https://github.com/medcl/elasticsearch-analysis-ik/releases

下载和自己ES相同的版本，在plugin目录下新建一个ik文件夹，将下载的文件解压到ik目录下，重新启动即可。

IK分词器提供了两种算法：

1、ik_smart：最少切分

2、ik_max_word：最细粒划分

首先最少切分是根据字典给出最少的切分：

ik_max_word是最细粒划分，他会给出最多的结果：

{

"analyzer": "ik_max_word",

"text": "我是Java工程师"

}

结果：

{

"tokens": [

{

"token": "我",

"start_offset": 0,

"end_offset": 1,

"type": "CN_CHAR",

"position": 0

{

"token": "是",

"start_offset": 1,

"end_offset": 2,

"type": "CN_CHAR",

"position": 1

{

"token": "java",

"start_offset": 2,

"end_offset": 6,

"type": "ENGLISH",

"position": 2

{

"token": "工程师",

"start_offset": 6,

"end_offset": 9,

"type": "CN_WORD",

"position": 3

{

"token": "工程",

"start_offset": 6,

"end_offset": 8,

"type": "CN_WORD",

"position": 4

{

"token": "师",

"start_offset": 8,

"end_offset": 9,

"type": "CN_CHAR",

"position": 5

}

]

}

好啦，今天的文章就到这里，希望能帮助到屏幕前迷茫的你们！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,332评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,930评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,204评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,348评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,356评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,447评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,862评论 3赞 394
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,516评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,710评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,518评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,582评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,295评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,848评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,881评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,121评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,737评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,280评论 2赞 341

GitHub星标数超4万的火爆之作——ElasticSearch，你值得拥有！

（一）介绍

（二）核心概念理解

2.1 数据结构

2.2 索引（indeces）和文档（documents）

2.3 分片

2.4 倒排索引

（三）ES的基本操作

3.1 创建文档

3.2 创建带有数据类型的索引

3.3 查看索引或者文档的数据

3.4 修改数据

3.5 删除数据

（四）ES的搜索操作

4.1 简单搜索

4.2 通过param传递参数

（五）分词器

推荐阅读更多精彩内容