【转】Solr Tokenizers分词器介绍

原文出处：https://blog.csdn.net/jiangchao858/article/details/54981722

摘要： Solr的分词器(Tokenizers)用来将文本流分解成一系列的标记(tokens)。分析器analyzer 受字段配置的影响，分词器(Tokenizers)于此无关。分析器主要是把字符流(character stream )处理成一系列的标记对象(Token objects)。参见原文。

分词器说明

输入流中很些信息可能是不需要的，比如空格和标点；有些信息是需要添加的，如同义词/别名；有些信息需要替换，如缩略语等。这样，分析器处理后的一个标记(token)包含很多信息。
例如：

<fieldType name="text" class="solr.TextField">
  <analyzer>
    <tokenizer class="solr.StandardTokenizerFactory"/>
  </analyzer>
</fieldType>

这里的StandardTokenizerFactory并不是真正的分词器，而是所有实现该TokenizerFactory的API。这个工厂类将在需要创建新的tokenizer 时被调用。它的create()方法接受一个Reader参数（即字符流）并返回一个TokenStream（即标记流）。创建对象的工厂必须源自Tokenizer。除非你要使用tokenizer 生成的标记(token)，否则都应该将结果传送给下级的过滤器(filter)。

分词器种类

标准分词器

这个Tokenizer将文本的空格和标点当做分隔符。
注意，你的Email地址（含有@符合）可能会被分解开；用点号（就是小数点）连接的部分不会被分解开。对于有连字符的单词，也会被分解开。

参数	值	说明
maxTokenLength	整数，默认255	超过此长度的字符会被忽略

举例：

<analyzer>
  <tokenizer class="solr.StandardTokenizerFactory"/>
</analyzer>

输入：“Please, email john.doe@foo.com by 03-09, re: m37-xq.”
输出： “Please”, “email”, “john.doe”, “foo.com”, “by”, “03”, “09”, “re”, “m37”, “xq”

经典标记生成器

基本与Standard Tokenizer相同。
注意，用点号（就是小数点）连接的部分不会被分解开；用@号（Email中常用）连接的部分不会被分解开；互联网域名（比如wo.com.cn）不会被分解开；有连字符的单词，如果是数字连接也会被分解开。

参数	值	说明
maxTokenLength	整数，默认255	超过此长度的字符会被忽略

例如：

<analyzer>
  <tokenizer class="solr.ClassicTokenizerFactory"/>
</analyzer>

输入： “Please, email john.doe@foo.com by 03-09, re: m37-xq.”
输出： “Please”, “email”, “john.doe@foo.com”, “by”, “03-09”, “re”, “m37-xq”

关键词分词

把整个输入文本当做一个整体。
没有参数。
例如：

<analyzer>
  <tokenizer class="solr.KeywordTokenizerFactory"/>
</analyzer>

输入： “Please, email john.doe@foo.com by 03-09, re: m37-xq.”
输出： “Please, email john.doe@foo.com by 03-09, re: m37-xq.”

信标记者

只处理字母。
没有参数。
例如：

<analyzer>
  <tokenizer class="solr.LetterTokenizerFactory"/>
</analyzer>

输入： “I can’t.”
输出： “I”, “can”, “t”

小写标记生成器

以非字母元素分隔，将所有的字母转化为小写。
没有参数。
例如：

<analyzer>
  <tokenizer class="solr.LowerCaseTokenizerFactory"/>
</analyzer>

输入：“我只是爱我的iPhone！”
输出：“我”，“公正”，“爱”，“我的”，“iphone”

n元标记生成器

将输入文本转化成指定范围大小的片段。
注意，空格也会被当成一个字符处理。

参数	值	说明
minGramSize	整数，默认1	指定最小的片段大小，需大于0
maxGramSize	整数，默认2	指定最大的片段大小，需大于最小值

例如：

<analyzer>
  <tokenizer class="solr.NGramTokenizerFactory"/>
</analyzer>

输入： “hey man”
输出： “h”, “e”, “y”, ” “, “m”, “a”, “n”, “he”, “ey”, “y “, ” m”, “ma”, “an”

注意，这里的空格会被当成一个字符，所以会有一个空的token，此外，”m”和” m”，还有”y”和”y “是不同的，后者都含有一个空格符。

例如：

<analyzer>
  <tokenizer class="solr.NGramTokenizerFactory" minGramSize="4" maxGramSize="5"/>
</analyzer>

输入： “bicycle”
输出： “bicy”, “bicyc”, “icyc”, “icycl”, “cycl”, “cycle”, “ycle”

边缘的N-gram分词器

用法和N-Gram Tokenizer类似。

参数	值	说明
minGramSize	整数，默认1	指定最小的片段大小，需大于0
maxGramSize	整数，默认1	指定最大的片段大小，需大于或等于最小值
side	“front” 或 “back”, 默认”front”	指定从哪个方向进行解析

例如：

<analyzer>
  <tokenizer class="solr.EdgeNGramTokenizerFactory" />
</analyzer>

输入： “babaloo”
输出： “b”

例如：

<analyzer>
  <tokenizer class="solr.EdgeNGramTokenizerFactory" minGramSize="2" maxGramSize="5"/>
</analyzer>

输入： “babaloo”
输出： “ba”, “bab”, “baba”, “babal”

例如：

<analyzer>
  <tokenizer class="solr.EdgeNGramTokenizerFactory" minGramSize="2" maxGramSize="5" side="back"/>
</analyzer>

输入： “babaloo”
输出： “oo”, “loo”, “aloo”, “baloo”

正则表达式模式标记生成器

可以指定正则表达式来分析文本。

参数	值	说明
pattern	必选项	正规表达式
group	数字，可选，默认-1	负数表示用正则表达式做分界符；非正数表示只分析满足正则表达式的部分；0表示满足整个正则表达式；大于0表示满足正则表达式的第几个括号中的部分

例如：

<analyzer>
  <tokenizer class="solr.PatternTokenizerFactory" pattern="\s*,\s*"/>
</analyzer>

输入： “fee,fie, foe , fum”
输出： “fee”, “fie”, “foe”, “fum”

例如：

<analyzer>
  <tokenizer class="solr.PatternTokenizerFactory" pattern="[A-Z][A-Za-z]*" group="0"/>
</analyzer>

输入：“你好。我的名字是伊尼戈蒙托亚。你杀了我的父亲。准备后事“。
输出：‘你好’，‘我的’，‘伊尼戈’，‘蒙托亚’，‘你’，‘准备’

这里的group为0，表示必须满足整个表达式，正则表达式的含义是以大写字母开头，之后是大写字母或小写字母的组合。

例如：

<analyzer>
  <tokenizer class="solr.PatternTokenizerFactory" pattern="(SKU|Part(\sNumber)?):?\s(\[0-9-\]+)" group="3"/>
</analyzer>

输入： “SKU: 1234, Part Number 5678, Part: 126-987”
输出： “1234”, “5678”, “126-987”

这个group等于3，表示满足第三个括号”[0-9-]+”中的正则表达式

空白标记生成器

这个Tokenizer将文本的空格当做分隔符。

参数	值	说明
rule	默认java	如何定义空格
unicode

例如：

<analyzer>
  <tokenizer class="solr.WhitespaceTokenizerFactory" rule="java" />
</analyzer>

输入：“要，还是什么？”
输出：“要”，“是”，“或”，“怎么办？”

最后编辑于：2018.07.22 20:58:19

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,761评论 5赞 460
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,953评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,998评论 0赞 320
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,248评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,130评论 4赞 356
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,145评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,550评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,236评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,510评论 1赞 291
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,601评论 2赞 310
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,376评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,247评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,613评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,911评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,191评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,532评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,739评论 2赞 335