哈哈哈没错就是我,我我我又跑过来开新坑了,今天来和大家唠唠CRF的那点事儿.
条件随机场(conditional random field, CRF)
- 我们用CRF来做什么?
可以用于构造在给定一组输入随机变量的条件下,另一组输出随机变量的条件概率分布模型.
在开始之前
-
概率无向图
即马尔可夫随机场,是一个用无向图表示的联合概率分布.
定义: 图(graph) 是由 节点(node) 与 边(edge) 组成的集合,我们记节点为,记边为,将节点和边所处的集合分别置为
与,相应的,我们把该图记作,设由表示联合概率分布,在图中,每一个节点都表示一个随机变量,,而与之对应的,则表示了随机变量之间的概率依赖关系.-
三个性质:
成对马尔可夫性:
局部马尔可夫性:
全局马尔可夫性:
显然成对,局部,全局马尔可夫性质都是等价的ww
-
我们可以说:
- 如果联合概率分布图满足成对、局部或全局马尔可夫性,则我们可以称此联合概率分布为概率无向图模型或者马尔可夫随机场.
-
概率无向图因子分解:
最大团: 如上图构成一个最大团,该最大团的特点是,从图上的各个其他节点当中,任选一个节点,都不可能同时存在与的关系,这样的团(clique)我们称之为最大团(maximal clique).
-
无向图会满足如下性质:
其中,C代表一个最大团,表示C对应的随机变量.
我们通常称为势函数,我们这里要求势函数是严格正项.
这里我们用指数的形式来表达是因为指数函数良好的性质.
-
Hammersley-Clifford 定理
- 概率无向图模型的联合概率分布可以表示为如下形式:
其中,C是无向图的最大团,是的节点对应的随机变量,是上定义的严格整函数,乘积在无向图所有的最大团上进行.
- 概率无向图模型的联合概率分布可以表示为如下形式:
条件随机场的基础表达
- 条件随机场(conditional random field)是给定随机变量条件下,随机变量的马尔可夫随机场.这里我们主要介绍定义在线性链上的特殊条件随机场,我们称之为线性链马尔可夫随机场(linear chain conditional random field).在该条件概率模型中,是输出变量,表示标记序列,即状态序列,是输入变量,也就是我们得到的需要标注的观测序列.研究学习问题时,我们利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型,在研究预测问题时,我们根据给定的输入序列,求出条件概率最大的输出序列.
-
条件随机场的成立条件: 设与是随机变量,是在给定的条件下的条件概率分布.若随机变量构成一个由无向图表示的马尔可夫随机场,即
对任意结点成立,则称条件概率分布为条件随机场,式中表示在图中与结点有边链接的所有结点,表示结点以外的所有节点,为结点分别对应的随机变量. -
线性链条件随机场: 设,均为线性链表示的随机变量序列,若在给定的随机变量序列的条件下,随机变量序列的条件概率分布构成条件随机场,即满足马尔可夫性
(在和时只考虑单边)
则称为线性链条件随机场,在标注问题中,表示输入观测序列,表示对应的输出标记序列,或者我们可以称之为状态序列.
-
条件随机场的参数化形式:
其中,是特征函数,是对应的权值,而是规范化因子.
- 其中是定义在边上的特征函数,我们称之为转移特征,它同时依赖于当前位置和上一个位置.
- 而是定义在节点上的特征函数,我们称之为状态特征,它仅仅依赖于当前位置.
- 以上两个变量都依赖于位置属于局部特征,在满足条件时它们的取值为1,不满足条件时,它们的取值为0.
-
条件随机场的简化形式:为了方便记录起见,我们将转移特征和状态特征及其权值用统一的符号来表示.设有个转移特征,个状态特征,,记:
相应的我们把和写为如下格式:
权值对应的统一符号:
条件随机场对应的概率表达:
w表示权值向量:
表示全局特征向量:
我们可以对应地把条件随机场写成向量与的内积的形式:
与之对应的归一化参数
-
条件随机场的矩阵形式:
对于观测序列的每一个位置我们都定义一个阶矩阵(是标记的取值的个数):
这样一来,对于给定的观测序列,标记序列的非规范化概率可以通过个矩阵的乘积来表示,于是,条件概率就是:
其中为规范化因子,是个矩阵的乘积的元素:
与表示开始状态与结束状态,规范化因子是这期间所有的概率矩阵的乘积.
CRF的概率计算问题
-
前向-后向算法:对于每个指标,定义前向向量:
递推公式为:
终结项为:
同理可知我们的后向向量:
递推公式:
终结项:
由此我们可得出如下关系:
在已知前向后向序列时的条件概率运算:
其中:
-
期望值计算:
其中:
特征函数关于联合分布的数学期望是:
其中: