词嵌入（WORD2VEC）

原创：李孟启

1.前言

⾃然语⾔是⼀套⽤来表达含义的复杂系统。在这套系统中，词是表义的基本单元。顾名思义，词向量是⽤来表示词的向量，也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌⼊（word embedding）。近年来，词嵌⼊已逐渐成为⾃然语⾔处理的基础知识。

2.为何不采⽤ONE-HOT向量

假设词典中不同词的数量（词典⼤⼩）为 $N$ ，每个词可以和从 $0$ 到 $N-1$ 的连续整数⼀⼀对应。这些与词对应的整数叫作词的索引。假设⼀个词的索引为 $i$ ，为了得到该词的one-hot向量表示，我们创建⼀个全 $0$ 的⻓为 $N$ 的向量，并将其第 $i$ 位设成 $1$ 。这样⼀来，每个词就表示成了⼀个⻓度为 $N$ 的向量，可以直接被神经⽹络使⽤。

虽然one-hot词向量构造起来很容易，但通常并不是⼀个好选择。⼀个主要的原因是，one-hot词向量⽆法准确表达不同词之间的相似度，如我们常常使⽤的余弦相似度。对于向量 $\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^{d}$ ，它们的余弦相似度是它们之间夹⻆的余弦值:

$\frac{x^{\top} y}{\|x\| y \|} \in[-1,1]$
由于任何两个不同词的one-hot向量的余弦相似度都为0，多个不同词之间的相似度难以通过one-hot向量准确地体现出来。

word2vec⼯具的提出正是为了解决上⾯这个问题。它将每个词表示成⼀个定⻓的向量，并使得这些向量能较好地表达不同词之间的相似和类⽐关系。word2vec⼯具包含了两个模型，即跳字模型（skip-gram）和连续词袋模型（continuous bag of words，CBOW）。接下来让我们分别介绍这两个模型以及它们的训练⽅法。

3.跳字模型

跳字模型假设基于某个词来⽣成它在⽂本序列周围的词。举个例⼦，假设⽂本序是“the”“man”“loves”“his”“son”。以“loves”作为中⼼词，设背景窗⼝⼤⼩为2。如图1所示，跳字模型所关⼼的是，给定中⼼词“loves”，⽣成与它距离不超过2个词的背景词“the”“man”“his”“son”的条件概率，即

$P(" \text{ the", "man", "his", "son" } \mid " \text { loves" }) \text {. }$
假设给定中⼼词的情况下，背景词的⽣成是相互独⽴的，那么上式可以改写成

$P("the" \mid " loves") \cdot P(" \operatorname{man} " \mid " loves") \cdot P(" his" \mid " loves") \cdot P('son" \mid " loves").$

图1 跳字模型关⼼给定中⼼词⽣成背景词的条件概率

在跳字模型中，每个词被表示成两个 $d$ 维向量，⽤来计算条件概率。假设这个词在词典中索引为 $i$ ，当它为中⼼词时向量表示为 $v_{i} \in \mathbb{R}^{d}$ ，⽽为背景词时向量表示为 $u_{i} \in \mathbb{R}^{d}$ 。设中⼼词 $\mathrm{w}_{\mathrm{c}}$ 在词典中索引为 $c$ ，背景词 $\omega_{o}$ 在词典中索引为o ，给定中⼼词⽣成背景词的条件概率可以通过对向量内积做softmax运算⽽得到：
$P\left(w_{o} \mid w_{c}\right)=\frac{\exp \left(\boldsymbol{u}_{o}^{\top} \boldsymbol{v}_{c}\right)}{\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \boldsymbol{v}_{c}\right)}$
其中词典索引集 $\mathcal{V}=\{0,1, \ldots,|\mathcal{V}|-1\}$ 。假设给定⼀个⻓度为 $T$ 的⽂本序列，设时间步 $t$ 的词为 $w^{(t)}$ 。假设给定中⼼词的情况下背景词的⽣成相互独⽴，当背景窗⼝⼤⼩为 $m$ 时，跳字模型的似然函数即给定任⼀中⼼词⽣成所有背景词的概率

$\prod_{t=1}^{T} \prod_{-m \leq j \leq m, j \neq 0} P\left(w^{(t+j)} \mid w^{(t)}\right)$
这⾥⼩于 $1$ 和⼤于 $T$ 的时间步可以忽略。

4.训练跳字模型

跳字模型的参数是每个词所对应的中⼼词向量和背景词向量。训练中我们通过最⼤化似然函数来学习模型参数，即最⼤似然估计。这等价于最⼩化以下损失函数：

$-\sum_{t=1}^{T} \sum_{-m \leq j \leq m, j \neq 0} \log P\left(w^{(t+j)} \mid w^{(t)}\right)$
如果使⽤随机梯度下降，那么在每⼀次迭代⾥我们随机采样⼀个较短的⼦序列来计算有关该⼦序列的损失，然后计算梯度来更新模型参数。梯度计算的关键是条件概率的对数有关中⼼词向量和背景词向量的梯度。根据定义，⾸先看到
$\log P\left(w_{o} \mid w_{c}\right)=\boldsymbol{u}_{o}^{\top} \boldsymbol{v}_{c}-\log \left(\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \boldsymbol{v}_{c}\right)\right)$
通过微分，我们可以得到上式中 $\boldsymbol{v}_{c}$ 的梯度
$\begin{aligned} \frac{\partial \log P\left(w_{o} \mid w_{c}\right)}{\partial \boldsymbol{v}_{c}} &=\boldsymbol{u}_{o}-\frac{\sum_{j \in \mathcal{V}} \exp \left(\boldsymbol{u}_{j}^{\top} \boldsymbol{v}_{c}\right) \boldsymbol{u}_{j}}{\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \boldsymbol{v}_{c}\right)} \\ &=\boldsymbol{u}_{o}-\sum_{j \in \mathcal{V}}\left(\frac{\exp \left(\boldsymbol{u}_{j}^{\top} \boldsymbol{v}_{c}\right)}{\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \boldsymbol{v}_{c}\right)}\right) \boldsymbol{u}_{j} \\ &=\boldsymbol{u}_{o}-\sum_{j \in \mathcal{V}} P\left(w_{j} \mid w_{c}\right) \boldsymbol{u}_{j} \end{aligned}$
它的计算需要词典中所有词以 $w_{c}$ 为中⼼词的条件概率。有关其他词向量的梯度同理可得。

训练结束后，对于词典中的任⼀索引为 $i$ 的词，我们均得到该词作为中⼼词和背景词的两组词向量 $\boldsymbol{v}_{i}$ 和 $\boldsymbol{u}_{i}$ 。在⾃然语⾔处理应⽤中，⼀般使⽤跳字模型的中⼼词向量作为词的表征向量。

5.连续词袋模型

连续词袋模型与跳字模型类似。与跳字模型最⼤的不同在于，连续词袋模型假设基于某中⼼词在⽂本序列前后的背景词来⽣成该中⼼词。在同样的⽂本序列“the”“man”“loves”“his”“son”⾥，以“loves”作为中⼼词，且背景窗⼝⼤⼩为2时，连续词袋模型关⼼的是，给定背景词“the”“man”“his”“son”⽣成中⼼词“loves”的条件概率（如图2所示），也就是

图2 连续词袋模型关⼼给定背景词⽣成中⼼词的条件概率

因为连续词袋模型的背景词有多个，我们将这些背景词向量取平均，然后使⽤和跳字模型⼀样的⽅法来计算条件概率。设 $v_{i} \in \mathbb{R}^{d}$ 和 $\boldsymbol{u}_{i} \in \mathbb{R}^{d}$ 分别表示词典中索引为 $i$ 的词作为背景词和中⼼词的向量（注意符号的含义与跳字模型中的相反）。设中⼼词 $w_{c}$ 在词典中索引为 $c$ ，背景词 $w_{o_{1}}, \ldots, w_{o_{2 m}}$ 在词典中索引为 $O_{1}, \ldots, O_{2 m}$ ，那么给定背景词⽣成中⼼词的条件概率

$P\left(w_{c} \mid w_{o_{1}}, \ldots, w_{o_{2 m}}\right)=\frac{\exp \left(\frac{1}{2 m} \boldsymbol{u}_{c}^{\top}\left(\boldsymbol{v}_{o_{1}}+\ldots+\boldsymbol{v}_{o_{2 m}}\right)\right)}{\sum_{i \in \mathcal{v}} \exp \left(\frac{1}{2 m} \boldsymbol{u}_{i}^{\top}\left(\boldsymbol{v}_{o_{1}}+\ldots+\boldsymbol{v}_{o_{2 m}}\right)\right)}$
为了让符号更加简单，我们记 $\mathcal{W}_{o}=\left\{w_{o_{1}}, \ldots, w_{o_{2 m}}\right\}$ ，且 $\overline{\boldsymbol{v}}_{o}=\left(\boldsymbol{v}_{o_{1}}+\ldots+\boldsymbol{v}_{o_{2 m}}\right) /(2 m)$ ，那么上式可以简写成
$P\left(w_{c} \mid \mathcal{W}_{o}\right)=\frac{\exp \left(\boldsymbol{u}_{c}^{\top} \overline{\boldsymbol{v}}_{o}\right)}{\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \overline{\boldsymbol{v}}_{o}\right)}$

给定⼀个⻓度为 $T$ 的⽂本序列，设时间步 $t$ 的词为 $w^{(t)}$ ，背景窗⼝⼤⼩为 $m$ 。连续词袋模型的似然函数是由背景词⽣成任⼀中⼼词的概率
$\prod_{t=1}^{T} P\left(w^{(t)} \mid w^{(t-m)}, \ldots, w^{(t-1)}, w^{(t+1)}, \ldots, w^{(t+m)}\right)$

6.训练连续词袋模型

训练连续词袋模型同训练跳字模型基本⼀致。连续词袋模型的最⼤似然估计等价于最⼩化损失函数

$-\sum_{t=1}^{T} \log P\left(w^{(t)} \mid w^{(t-m)}, \ldots, w^{(t-1)}, w^{(t+1)}, \ldots, w^{(t+m)}\right)$

注意到

$\log P\left(w_{c} \mid \mathcal{W}_{o}\right)=\boldsymbol{u}_{c}^{\top} \overline{\boldsymbol{v}}_{o}-\log \left(\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \overline{\boldsymbol{v}}_{o}\right)\right)$
通过微分，我们可以计算出上式中条件概率的对数有关任⼀背景词向量 $v_{o_{i}}(i=1, \ldots, 2 m)$ 的梯度

$\frac{\partial \log P\left(w_{c} \mid \mathcal{W}_{o}\right)}{\partial v_{o_{i}}}=\frac{1}{2 m}\left(\boldsymbol{u}_{c}-\sum_{j \in \mathcal{V}} \frac{\exp \left(\boldsymbol{u}_{j}^{\top} \bar{v}_{o}\right) \boldsymbol{u}_{j}}{\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \bar{v}_{o}\right)}\right)=\frac{1}{2 m}\left(\boldsymbol{u}_{c}-\sum_{j \in \mathcal{V}} P\left(w_{j} \mid \mathcal{W}_{o}\right) \boldsymbol{u}_{j}\right)$
有关其他词向量的梯度同理可得。同跳字模型不⼀样的⼀点在于，我们⼀般使⽤连续词袋模型的背景词向量作为词的表征向量。

7.近似训练

跳字模型的核⼼在于使⽤softmax运算得到给定中⼼词 $w_{c}$ 来⽣成背景词 $w_{o}$ 的条件概率

$P\left(w_{o} \mid \boldsymbol{w}_{c}\right)=\frac{\exp \left(\boldsymbol{u}_{o}^{\top} \boldsymbol{v}_{c}\right)}{\sum_{i \in \mathcal{U}} \exp \left(\boldsymbol{u}_{i}^{\top} \boldsymbol{v}_{c}\right)}$
该条件概率相应的对数损失

$-\log P\left(w_{o} \mid w_{c}\right)=-\boldsymbol{u}_{o}^{\top} \boldsymbol{v}_{c}+\log \left(\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \boldsymbol{v}_{c}\right)\right)$
由于softmax运算考虑了背景词可能是词典 $\mathcal{V}$ 中的任⼀词，以上损失包含了词典⼤⼩数⽬的项的累加。在上⼀节中我们看到，不论是跳字模型还是连续词袋模型，由于条件概率使⽤了softmax运算，每⼀步的梯度计算都包含词典⼤⼩数⽬的项的累加。对于含⼏⼗万或上百万词的较⼤词典，每次的梯度计算开销可能过⼤。为了降低该计算复杂度，本节将介绍两种近似训练⽅法，即负采样（negative sampling）或层序softmax（hierarchical softmax）。由于跳字模型和连续词袋模型类似，本节仅以跳字模型为例介绍这两种⽅法。

8.负采样

负采样修改了原来的⽬标函数。给定中⼼词 $w_{c}$ 的⼀个背景窗⼝，我们把背景词 $w_{o}$ 出现在该背景窗⼝看作⼀个事件，并将该事件的概率计算为

$P\left(D=1 \mid w_{c}, w_{o}\right)=\sigma\left(\boldsymbol{u}_{o}^{\top} \boldsymbol{v}_{c}\right)$
其中的 $\sigma$ 函数与sigmoid激活函数的定义相同：

$\sigma(x)=\frac{1}{1+\exp (-x)} .$
我们先考虑最⼤化⽂本序列中所有该事件的联合概率来训练词向量。具体来说，给定⼀个⻓度为T的⽂本序列，设时间步t 的词为 $w^{(t)}$ 且背景窗⼝⼤⼩为 $m$ ，考虑最⼤化联合概率

$\prod_{t=1}^{T} \prod_{-m \leq j \leq m, j \neq 0} P\left(D=1 \mid w^{(t)}, w^{(t+j)}\right)$
然⽽，以上模型中包含的事件仅考虑了正类样本。这导致当所有词向量相等且值为⽆穷⼤时，以上的联合概率才被最⼤化为1。很明显，这样的词向量毫⽆意义。负采样通过采样并添加负类样本使⽬标函数更有意义。设背景词 $w_{o}$ 出现在中⼼词 $w_{c}$ 的⼀个背景窗⼝为事件 $P$ ，我们根据分布 $P(w)$ 采样 $K$ 个未出现在该背景窗⼝中的词，即噪声词。设噪声词 $w_{k}\quad(k=1, \ldots, K)$ 不出现在中⼼词 $w_{c}$ 的该背景窗⼝为事件 $N_{k}$ 。假设同时含有正类样本和负类样本的事件 $P, N_{1}, \ldots, N_{K}$ 相互独⽴，负采样将以上需要最⼤化的仅考虑正类样本的联合概率改写为
$\prod_{t=1}^{T} \prod_{-m \leq j \leq m, j \neq 0} P\left(w^{(t+j)} \mid w^{(t)}\right)$
其中条件概率被近似表示为

$P\left(w^{(t+j)} \mid w^{(t)}\right)=P\left(D=1 \mid w^{(t)}, w^{(t+j)}\right) \prod_{k=1, w_{k} \sim P(w)}^{K} P\left(D=0 \mid w^{(t)}, w_{k}\right)$
设⽂本序列中时间步 $t$ 的词 $w^{(t)}$ 在词典中的索引为 $i_{t}$ ，噪声词 $w_{k}$ 在词典中的索引为 $h_{k}$ 。有关以上条件概率的对数损失为

$\begin{aligned} -\log P\left(w^{(t+j)} \mid w^{(t)}\right) &=-\log P\left(D=1 \mid w^{(t)}, w^{(t+j)}\right)-\sum_{k=1, w_{k} \sim P(w)}^{K} \log P\left(D=0 \mid w^{(t)}, w_{k}\right) \\ &=-\log \sigma\left(\boldsymbol{u}_{i_{t+j}}^{\top} \boldsymbol{v}_{i_{t}}\right)-\sum_{k=1, w_{k} \sim P(w)}^{K} \log \left(1-\sigma\left(\boldsymbol{u}_{h_{k}}^{\top} \boldsymbol{v}_{i_{t}}\right)\right) \\ &=-\log \sigma\left(\boldsymbol{u}_{i_{t+j}}^{\top} \boldsymbol{v}_{i_{t}}\right)-\sum_{k=1, w_{k} \sim P(w)}^{K} \log \sigma\left(-\boldsymbol{u}_{h_{k}}^{\top} \boldsymbol{v}_{i_{t}}\right) \end{aligned}$
现在，训练中每⼀步的梯度计算开销不再与词典⼤⼩相关，⽽与 $K$ 线性相关。当 $K$ 取较⼩的常数时，负采样在每⼀步的梯度计算开销较⼩。

9.层序softmax

层序softmax是另⼀种近似训练法。它使⽤了⼆叉树这⼀数据结构，树的每个叶结点代表词典中的每个词。

图3 层序softmax。⼆叉树的每个叶结点代表着词典的每个词

假设 $L(w)$ 为从⼆叉树的根结点到词 $w$ 的叶结点的路径（包括根结点和叶结点）上的结点数。设 $n(w, j)$ 为该路径上第 $j$ 个结点，并设该结点的背景词向量为 $\boldsymbol{u}_{n}(w, j)$ 。以图3为例， $L\left(w_{3}\right)=4$ 。层序 softmax将跳字模型中的条件概率近似表示为

leftChild(n) 是结点 n的左⼦结点：如果判断 $x$ 为真，[x]=1 ；反之 [x]=-1。让我们计算图3中给定词 $w_{c}$ ⽣成词 $w_{3}$ 的条件概率。我们需要将 $w_{c}$ 的词向量 $\boldsymbol{v}_{c}$ 和根结点到 $w_{3}$ 路径上的⾮叶结点向量⼀⼀求内积。由于在⼆叉树中由根结点到叶结点 $w_{3}$ 的路径上需要向左、向右再向左地遍历（图10中加粗的路径），我们得到
$P\left(w_{3} \mid w_{c}\right)=\sigma\left(\boldsymbol{u}_{n\left(w_{3}, 1\right)}^{\top} \boldsymbol{v}_{c}\right) \cdot \sigma\left(-\boldsymbol{u}_{n\left(w_{3}, 2\right)}^{\top} \boldsymbol{v}_{c}\right) \cdot \sigma\left(\boldsymbol{u}_{n\left(w_{3}, 3\right)}^{\top} \boldsymbol{v}_{c}\right)$
由于 $\sigma(x)+\sigma(-x)=1$ ，给定中⼼词 $w_{c}$ ⽣成词典 $\mathcal{V}$ 中任⼀词的条件概率之和为1这⼀条件也将满⾜：
$\sum_{w \in \mathcal{V}} P\left(w \mid w_{c}\right)=1$
此外，由于 $L\left(w_{o}\right)-1$ 的数量级为 $\mathcal{O}\left(\log _{2}|\mathcal{V}|\right)$ ，当词典 $\mathcal{V}$ 很⼤时，层序softmax在训练中每⼀步的梯度计算开销相较未使⽤近似训练时⼤幅降低。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,312评论 5赞 473
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,578评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,337评论 0赞 333
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,134评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,161评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,303评论 1赞 280
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,761评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,421评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,609评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,450评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,504评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,194评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,760评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,836评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,066评论 1赞 257
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,612评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,178评论 2赞 341