Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。
Syntagmatic 关系发现:互信息
互信息 I(X;Y):衡量信息降低
在我们知道 Y 的情形下能够降低 X 多少熵?
属性:
- 非负性:I(X;Y) >= 0
- 对称性:I(X;Y) = I(Y;X)
- 独立性:I(X;Y) = 0 iff X 和 Y 是独立的
当我们固定 X 来对不同的 Y 进行排名时,I(X;Y) 和 H(X|Y) 给出了相同的顺序。但是 I(X;Y) 允许我们比较不同的 (X,Y) 对。
用作 syntagmatic 关系挖掘的互信息 I(X;Y)
当 “eats” 出现时,其他什么词也可能会出现?
也就是其他哪些词有与“eats”更高的互信息?
互信息越高,出现的可能性就越大
使用 KL-divergence 来重写互信息
散度度量了实际的联合分布与在独立假设下的期望分布的散度(divergence)。散度越大,互信息就越大。
互信息中用到的概率
上图中,细分了各种共现的情形。
不同概率之间的关系
这些都是相应的概率之间的限制条件。
互信息的计算
依赖数据的概率预测
一般来说,都是通过共现数据来估计概率值
平滑:解决计数为 0 的出现次数
通过引入伪数据让所有的事件都有非零的计数
syntagmatic 关系发现的总结
- syntagmatic 关系可以通过度量两个词的共现的相关性进行发现
- 来自信息论的三个概念:
- 熵 H(X) :衡量了随机变量 X 的不确定性
- 条件熵 H(X|Y):已知 Y 的情况下 X 的熵
- 互信息 I(X;Y):由于知道Y 导致的 X 的信息下降
- 互信息提供了一种发现 syntagmatic 关系的原理性方法
词关联挖掘的总结
- 两种基本关联:paradigmatic 和 syntagmatic
- 应用在任何的语言的任意项上(如,短语或者实体作为单元)
- 纯统计观点可以用来发现两种关联(也可以进行组合完成联合分析)
- 一般不需要人工,应用在任何文本上
- 对“context” 和 “segment”不同的定义对应了不同应用场景
- 发现的关联可以支持很多其他的应用