ES中文分词器之精确短语匹配（自定义分词器）

楼主在上篇文章中，提出了将词和字分开，用不同的分词器分别构建索引，来解决match_phrase在中文中的短语或者句子匹配问题。详细的内容请看上一篇文章：
ES中文分词器之精确短语匹配（解决了match_phrase匹配不全的问题）

为什么要自己写分词器？

楼主想要一种分词器，分词器完全按照词典分词，只要是词典有的词语，分词器就一定要分出来。测试了两个分词器比如说IK，MMseg，都不能按照楼主的要求分词。

MMSeg有考虑到词频，即使使用mmseg_max_word，也不能完全按照词典分词。

IK理论上是按照词典分词的，但是经测试，还是发现了些问题。比如说“一群穆斯林聚在一起”，单独用这句话测试，“穆斯林”可以分出，而这句话放入一篇文章中，却无法分出“穆斯林”。

楼主是用ik和standard对比命中量发现不一致，导出不一致数据后，才发现的这个问题（ik和mmseg都修改了源码，过滤掉中文之间的特殊符号，因此不存在词语中间有特殊符号standard可以分出，ik分不出而导致的不一致情况）。

没办法了，自己写一个吧。

ES自定义分词器

由于ES是采用juice依赖注入的方式，所以要实现一个工厂类和Provider类。

public class TestAnalyzerProvider extends AbstractIndexAnalyzerProvider<InfosecAnalyzer> {

public TestAnalyzerProvider(IndexSettings indexSettings, Environment env, String name, Settings settings) {
    super(indexSettings, name, settings);
}

public static AnalyzerProvider<? extends Analyzer> getMaxWord(IndexSettings indexSettings, Environment environment, String s, Settings settings) {
    return  new TestAnalyzerProvider(indexSettings,environment,s,settings);
}

@Override public InfosecAnalyzer get() {
    return new InfosecAnalyzer();
 }
}

public class TestTokenizerFactory extends AbstractTokenizerFactory {

 public TestTokenizerFactory(IndexSettings indexSettings, Environment env, String name, Settings settings) {
     super(indexSettings, name, settings);
 }

public static TokenizerFactory getMaxWord(IndexSettings indexSettings, Environment environment, String name, Settings settings) {
    return new TestTokenizerFactory(indexSettings,environment,name,settings);
}

@Override
public Tokenizer create() {
    return new TestTokenizor();
 }
}

接下来写自己的插件配置类：

public class AnalysisTestPlugin extends Plugin implements AnalysisPlugin {

public static String PLUGIN_NAME = "analysis-test;

@Override
public Map<String, AnalysisModule.AnalysisProvider<TokenizerFactory>> getTokenizers() {
    Map<String, AnalysisModule.AnalysisProvider<TokenizerFactory>> extra = new HashMap<>();

    extra.put("test_max_word", TestTokenizerFactory::getMaxWord);

    return extra;
}

@Override
public Map<String, AnalysisModule.AnalysisProvider<AnalyzerProvider<? extends Analyzer>>> getAnalyzers() {
    Map<String, AnalysisModule.AnalysisProvider<AnalyzerProvider<? extends Analyzer>>> extra = new HashMap<>();

    extra.put("test_max_word", TestAnalyzerProvider::getMaxWord);

    return extra;
}
}

因为我们只需要按照词典分词，所以这边只有一种最大分词模式，test_max_word。接下来就是Analyzer 和Tokenizor。

public class TestAnalyzer extends Analyzer {

public TestAnalyzer(){
    super();
}
@Override
protected TokenStreamComponents createComponents(String fieldName) {
    Tokenizer _TestTokenizer = new TestTokenizor();
    return new TokenStreamComponents(_TestTokenizer);
}
}


public class TestTokenizor extends Tokenizer {
//词元文本属性
private final CharTermAttribute termAtt;
//词元位移属性
private final OffsetAttribute offsetAtt;
//词元分类属性（该属性分类参考org.wltea.analyzer.core.Lexeme中的分类常量）
private final TypeAttribute typeAtt;
//记录最后一个词元的结束位置
private int endPosition;

private TestSegmenter test =null;

public InfosecTokenizor(){
    super();
    offsetAtt = addAttribute(OffsetAttribute.class);
    termAtt = addAttribute(CharTermAttribute.class);
    typeAtt = addAttribute(TypeAttribute.class);

    test = new TestSegmenter(input);
}

@Override
public boolean incrementToken() throws IOException {
    clearAttributes();
    Word word = test.getNext();
    if(word != null) {
        termAtt.copyBuffer(word.getSen(), word.getWordOffset(), word.getLength());
        offsetAtt.setOffset(word.getStartOffset(), word.getEndOffset());
        typeAtt.setType(word.getType());
        return true;
    } else {
        end();
        return false;
    }
}

public void reset() throws IOException {
    super.reset();
    //setReader 自动被调用, input 自动被设置。
    test.reset(input);
}
}

自定义分词器主要操作的是incrementToken方法，每次从TestSegmenter中取出一个词，如果改词存在，设置改词的token属性，返回true，即还有下一个token。如果改词不存在，返回false，标志着没有数据了，结束分词。

自定义分词的详细内容

由于代码太多了，这里就不一一贴出，只介绍下算法思想。

匹配类型

1）不匹配
2）前缀
3）匹配
4）匹配且是前缀

算法思想

先将数据分类组装成句子，然后经过句子处理器将句子分为多个word，存入queue中，再由increateToken()方法依次取出。

组装句子

依次扫描，将同类的数据组装成句子。比如说“你好哈233节日，快乐！233dad”，扫描第一个字符发现是中文，则继续向下扫描，一直扫描到‘2’，发现‘2’不是中文，则将“你好哈”组成句子交给句子处理器处理，将处理结果放入queue中。继续扫描，遍历到‘节’，发现‘节’不是数组，则将“233”组成一个word，放入queue。继续扫描，将“节”，“日”依次放入句子中，扫描到“，”，因为要和standard 对比效果，所以我在代码中过滤了中文间所有的符号，忽略“，”继续扫描，依次将“快”“乐”存入句子。后面类似处理即可。

句子分词

依次扫描句子，如果相邻的数据可以组装成一个词，则将词放入queue中，继续遍历下一个。例如“节日快乐”，分词时首先扫描“节”，在词典中查询“节”，发现“节”是一个前缀，则继续扫描“日”，发现“节日”是一个词匹配，且是一个前缀，则将“节日”存入queue中，继续扫描“节日快”，发现“节日快”是一个前缀，继续扫描“节日快乐”，发现“节日快乐”仅是一个词匹配，则将“节日快乐”存入queue中，结束从“节”开始的扫描。接下来按照上述方法从“日”字开始扫描。依次处理完整个句子。

词典

词典采用树的结构，比如说“节日愉快”，“节日快乐”和“万事如意”这三个词，在词典中如下表示：

词典结构

查找时，记录上一次前缀匹配的DicSegment，在前缀的DicSegment中，直接查找当前扫描字符，可以加快匹配速度。

比如说已经匹配到了”节日快“这个前缀，在匹配”节日快乐“时，直接在”快“对应的DicSegment中查找，这样就不用再次匹配”节日“两个字符。

问题

测试的过程中同样的发现了一些问题，比如说：

原文：长白山脉
test分词：长白 1 长白山 2 长白山脉 3 白山4 山脉5
查找词语：长白山
test分词：长白 1 长白山 2 白山 3

通过分词可以看出在“长白山脉”中查询不到“长白山”的。问题在于match_phrase的限制，长白山的分词顺序在原文构建索引时的位置不一样，中间多出了一个“长白山脉”。

解决方案：

不能匹配的原因是，查找词语在原文中和后面的字组成了词语。用最小粒度分词即可解决。也就是说只用长度为2和3的词语。不存在长度为4的词语，所以一个词长度为3时，在原文中不会和后面的数据组成词。当词的长度为2时，和后面的一个字匹配，可以组成一个长度为3的词，按照我们分词的规则，是先分出两个字的词，再分出三个字的词，所以，两个字的词是可以匹配的到的。

最后编辑于：2017.12.10 14:43:28

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

ES中文分词器之精确短语匹配（自定义分词器）

为什么要自己写分词器？

ES自定义分词器

自定义分词的详细内容

问题

推荐阅读更多精彩内容