学习笔记CB008:词义消歧、有监督、无监督、语义角色标注、信息检索、TF-IDF、隐含语义索引模型

词义消歧，句子、篇章语义理解基础，必须解决。语言都有大量多种含义词汇。词义消歧，可通过机器学习方法解决。词义消歧有监督机器学习分类算法，判断词义所属分类。词义消歧无监督机器学习聚类算法，把词义聚成多类，每一类一种含义。

有监督词义消歧方法。基于互信息词义消歧方法，两种语言对照，基于大量中英文对照语料库训练模型可词义消歧。来源信息论，一个随机变量中包含另一个随机变量信息量(英文信息中包含中文信息信息量)，假设两个随机变量X、Y的概率分别是p(x), p(y)，联合分布概率是p(x,y)，互信息计算公式，I(X; Y) = ∑∑p(x,y)log(p(x,y)/(p(x)p(y)))。互信息，一个随机变量由已知另一个随机变量减少不确定性(理解中文时由于已知英文含义让中文理解更确定)，不确定性，熵，I(X; Y) = H(X) - H(X|Y)。对语料不断迭代训练，I(X; Y)不断减小，算法终止条件I(X; Y)不再减小。基于互信息词义消歧方法对机器翻译系统效果最好。缺点，双语语料有限，多种语言能识别出歧义情况也有限的(如中英文同一个词都有歧义)。

基于贝叶斯分类器消歧方法。条件概率，上下文语境，任何多义词含义都跟上下文语境相关。假设语境(context)记c，语义(semantic)记s，多义词(word)记w，多义词w在语境c下有语义s概率，p(s|c)，p(s|c) = p(c|s)p(s)/p(c)。p(s|c)中s取某一个语义最大概率，p(c)既定，只考虑分子最大值，s估计=max(p(c|s)p(s))。语境c在自然语言处理中必须通过词表达，由多个v(词)组成，max(p(s)∏p(v|s))。

p(s)表达多义词w某个语义s概率，统计大量语料最大似然估计，p(s) = N(s)/N(w)。p(v|s)多义词w某个语义s条件词v概率，p(v|s) = N(v, s)/N(s)。训练出p(s)和p(v|s)，一个多义词w消歧计算(p(c|s)p(s))最大概率。

无监督词义消歧方法。完全无监督词义消歧不可能，没有标注无法定义词义，可通过无监督方法做词义辨识。无监督词义辨识，一种贝叶斯分类器，参数估计不是基于有标注训练语料，是先随机初始化参数p(v|s)，根据EM算法重新估计概率值，对w每一个上下文c计算p(c|s)，得到真实数据似然值，重新估计p(v|s)，重新计算似然值，不断迭代不断更新模型参数，最终得到分类模型，可对词分类，有歧义词在不同语境会被分到不同类别。基于单语言上下文向量。向量相似性，两个向量间夹角余弦值比较相似性，cos(a,b) = ∑ab/sqrt(∑a^2∑b2)。

浅层语义标注，行之有效语言分析方法，基于语义角色浅层分析方法可描述句子语义角色间关系。语义角色，谓词，施事者，受事者，事情发生时间，数量。语义角色标注分析角色信息，计算机提取重要结构化信息，来理解语言含义。

语义角色标注依赖句法分析结果，句法分析包括短语结构分析、浅层句法分析、依存关系分析，语义角色标注分基于短语结构树语义角色标注方法、基于浅层句法分析结果语义角色标注方法、基于依存句法分析结果语义角色标注方法。过程，句法分析->候选论元剪除->论元识别->论元标注->语义角色标注结果。论元剪除，在较多候选项中去掉肯定不是论元部分。论元识别，二值分类，是论元和不是论元。论元标注，多值分类。

基于短语结构树语义角色标注方法。短语结构树表达结构关系，语义角色标注过程依赖结构关系设计复杂策略，策略内容随语言结构复杂而复杂化。分析论元剪除的策略，语义角色以谓词中心，短语结构树以谓词节点中心，先平行分析，和受事者不同一层，如果当前节点兄弟节点和当前节点不是句法结构并列关系，作候选论元。论元识别，二值分类，基于标注语料库做机器学习，机器学习二值分类方法固定，谓词本身、短语结构树路径、短语类型、论元在谓词位置、谓词语态、论元中心词、从属类别、论元第一个词和最后一个词、组合特征。论元标注，机器学习多值分类器。

基于依存句法分析结果和基于语块语义角色标注方法。论元剪除过程，基于句法结构不同。基于依存句法分析结果语义角色标注方法基于依存句法直接提取出谓词-论元关系。剪除策略，以谓词作当前节点，当前节点所有子节点都是候选论元，将当前节点父节点作当前节点重复以上过程直至到根节点。基于依存句法分析结果语义角色标注方法论元识别算法特征设计，多了有关父子节点特征。

融合方式，加权求和、插值。

语义角色标注当前不是非常有效，依赖句法分析准确性、领域适应能力差。新方法，利用双语平行语料弥补准确性问题，成本提高许多。

信息检索无论是谷歌还是百度都离不开TF-IDF算法，简单有效但缺乏语义特征。

TF-IDF。TF(term frequency)，一个词在一个文档中出现频率。IDF(inverse document frequency)，一个词出现在多少个文档中。同一个词在短文档出现次数和在长文档中出现次数一样多，对于短文档价值更大。一个出现概率很低的词一旦出现在文档中，价值大于其他普遍出现词。在信息检索领域向量模型做相似度计算非常有效，曾是google发家必杀技。聊天机器人软肋，只考虑独立词，没有任何语义信息。

词词之间相关度，p(w, d)乘以转置，p(w,w) = p(w,d)×trans(p(w,d))。用户查询query关键词构成词向量Wq, 文档d表示成词向量Wd，query和文档d相关度，R(query, d) = Wq×p(w,w)×Wd。把所有文档算出来相关度从大到小排序就是搜索排序结果。

隐含语义索引模型，相比TF-IDF，加进语义信息、考虑词词关系，根据语义做信息检索，更适合研发聊天机器人做语料训练和分析，TF-IDF更适合完全基于独立词信息检索，更适合纯文本搜索引擎。

参考资料：

《Python 自然语言处理》

http://www.shareditor.com/blogshow?blogId=88

http://www.shareditor.com/blogshow?blogId=89

http://www.shareditor.com/blogshow?blogId=90

欢迎推荐上海机器学习工作机会，我的微信：qingxingfengzi

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,607评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,047评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,496评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,405评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,400评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,479评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,883评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,535评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,743评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,544评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,612评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,309评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,881评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,891评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,136评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,783评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,316评论 2赞 342

学习笔记CB008:词义消歧、有监督、无监督、语义角色标注、信息检索、TF-IDF、隐含语义索引模型

推荐阅读更多精彩内容