发现新词
- 目的:解决未登陆此;
- 定义:不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段;
- 影响因素:凝合度(最小支持度筛选)和自由程度(左右信息熵)
解决方案
不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,去除现有词库含有的词语,剩余的即新词
具体步骤如下
- 1、词频筛选
- 2、最小支持度筛选
- 3、左右信息熵筛选
- 4、去除已有的词库,即为新词发现
不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,去除现有词库含有的词语,剩余的即新词