[机器学习入门] 李宏毅机器学习笔记-30 (Sequence Labeling Problem part 2 ;结构化预测-序列标记 part 2)
VIDEO |
---|
上接 part 1
Sequence Labeling Problem
Outline
CRF
CRF同样也要描述P(x,y),P与图中式子成正比。
P(x,y) for CRF
CRF与HMM其实并没有那么不同,它们的model是一样的,只是在training上有所不同。
紫色部分:如果有10个可能的词性tag,世界上有10000个word的话,s就有10个不同的可能,t就有10000个不同的可能,紫色部分就是Summation 10*10000项,里面每一项就是word t被标示成tag s这件事在x,y这对pair中总共出现的次数。
红色部分:根据现在的model,word t 被取 tag s 的几率取log。
为什么可以做这样的转化呢?举个栗子。
所以对其他项也可以做几乎一样的转化。
如此这般,发现可以吧logP(x,y)写成一大堆两项的相乘。
有个地方需要额外注意一下,对应某个纬度的weight ,w是可以与HMM里面的几率相对应的,而且是可以通过exp()做转化的,因为没办法保证所求出来的exp是小于1的,所以不能说相等,而说他们成正比。
Feature Vector
就直接记住,CRF的几率就是一个exp下,一个weight 和 一个feature vector的inner products,那么这个feature