https://mp.weixin.qq.com/s/XtFyq5o-JO2wYZh-4mKmAQ
语言模型的目标:判断某句话是不是按照某种语言的习惯正确表达出来,本质就是判断一句话符合习惯的概率
N-gram模型
基于统计,当下应用最广,(马尔科夫假设)假定某个词的出现的概率只跟前面出现的少数几个词相关
根据已有的语料库,计算最有可能是’人话’的句子
n更大时对下一个词的约束性信息更多,有更大辨别力,n更小时在训练语料库中的次数更多,有更高可靠性。n为2时,就是一个二元模型
例子:备选项是根据概率计算出的前几位
例子:输入法中根据拼音也需要利用模型来匹配概率最高的文字
N-pos模型
将词按照语法功能进行分类,由这些词类决定下一个词出现的概率(part of speech)。需要大规模的语料训练。
基于决策树的语言模型
考虑了相近的概率分布。
举例:训练语料库中一个词W,前一个词W-1,这样数据点为(W,W-1)=(已经,吃过)
动态语言模型
上述三中均是静态语言模型,预先从训练语料库找那个估算好。能够根据词在局部文本中出现的情况,动态调整语言模型中的概率分布数据的语言模型,使之动态、自适应、基于缓存的模型,可以有效避免数据稀疏的问题。