TensorFlow训练词向量

参考： https://www.tensorflow.org/tutorials/word2vec

官网的这个教程主要讲word2vec的skip-gram模型，没有讲CBOW，并且训练用的负采样，没有用层次softmax。

动机

动机其实就是分布式假说：

在相同上下文中的词有相似语义（words that appear in the same contexts share semantic meaning）

根据分布式假说表示词的方法分为两类：

count-based methods (e.g. Latent Semantic Analysis)
predictive methods (e.g. neural probabilistic language models)

预测方法的代表就是Word2Vec模型，有两种：

Continuous Bag-of-Words model (CBOW)
Skip-Gram model

CBOW 从上下文预测目标词，skip-gram正好相反，从目标词预测上下文中的词。

CBOW在许多分布式信息上进行平滑（将整个上下文作为一种情况），大多数情况下这个模型在小一点的数据集上更有效。可是，skip-gram将每一对context-target词作为一种新的情况，在大一点的数据集上的会有更好效果。

噪声对比训练

神经概率语言模型通常用最大似然估计来训练，即最大化给定输入h（历史信息，前n-1个词），输出下一个词wt的概率，使用softmax函数，取log后就是我们想要的准则函数，叫作log-likelihood。这个值的计算代价非常高，因为softmax的分母要计算整个词表的得分。

训练数据的构造方法则为：对于每一个ngram片段，前n-1个词为构成输入数据（词向量拼接），第n个词构成输出类标。由于输出是一个softmax层，则对应词表大小个输出，如果模型训练ok的话，那么这里的第n个词对应的位置输出概率应该最大。

在word2vec中，不再需要计算整个词表每个词的得分。CBOW和skip-gram模型的核心是训练一个二元分类器，将目标词从k个构造的noise words区分出来。CBOW的模型图如下，skip-gram类似只是反过来。

此时目标函数就变为在当前上下文h下，目标词为1的概率log值，加上k个噪声词为0的概率log值的期望。在实践中，我们从噪声分布中采样k个词来近似计算期望。

这个目标可以看做是计算一个最优模型，这个模型赋予真实词高概率，赋予噪声词低概率。学术上，这个叫做负采样。这个方法使得训练变得非常有效，因为现在计算损失函数只需要考虑k个噪声词，而不是整个词表。在TensorFlow中，有一个非常相似的损失函数tf.nn.nce_loss()。

Skip-gram模型

举个例子说明训练的过程。

例子为：

the quick brown fox jumped over the lazy dog

上下文可以是语法词法等，这里定义为左边的词和右边的词，窗口大小设置为1，则可以得到context-target训练对如下：

([the, brown], quick), ([quick, fox], brown), ([brown, jumped], fox), ...

即通过quick预测the和brown，从brown预测quick和fox，这样数据集变为:

(quick, the), (quick, brown), (brown, quick), (brown, fox), ...

目标函数是定义在整个数据集上的，但是实际训练以minibatch为单位计算，batch_size一般为16 <= batch_size <= 512。

想象一下训练过程，假设当前观察到上面第一个pair，即(quick, the)，通过quick预测the，假定num_noise=1，并且通过噪声分布（一般就是词的先验分布）采样选出了噪声词sheep，当前目标变为：

优化的模型参数是词向量（embedding vector），求损失函数的梯度，沿梯度方向更新这个参数。当这个过程在整个数据集上不断重复的时候，每个词的词向量就会不断的“变来变去”，直到模型能够成功的从噪声词中区分真实词。

我们可以通过投影到二维空间来可视化学习到的词向量，用到了t-SNE降维技术。

实战

有了前面的理论基础，实现代码就比较容易了。

基础实现：tensorflow/examples/tutorials/word2vec/word2vec_basic.py

训练数据中，输入是batch_size个target word id构成的行向量，类标是batch_size个context word id构成的列向量：

# Input data.
train_inputs = tf.placeholder(tf.int32, shape=[batch_size])
train_labels = tf.placeholder(tf.int32, shape=[batch_size, 1])

词向量通过均匀分布初始化，shape为词表大小*词向量维数，通过tf.nn.embedding_lookup()查表将输入转为词向量形式。

# Look up embeddings for inputs.
embeddings = tf.Variable(
    tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0))
embed = tf.nn.embedding_lookup(embeddings, train_inputs)

噪声对比估计的损失按照逻辑回归模型定义，所以对于每一个词，都要有对应的权向量和偏置，通过截尾正态分布初始化（只保留两个标准差以内的值）。

# Construct the variables for the NCE loss
nce_weights = tf.Variable(
    tf.truncated_normal([vocabulary_size, embedding_size],
                        stddev=1.0 / math.sqrt(embedding_size)))
nce_biases = tf.Variable(tf.zeros([vocabulary_size]))

计算每个batch上的平均NCE损失

# Compute the average NCE loss for the batch.
# tf.nce_loss automatically draws a new sample of the negative labels each
# time we evaluate the loss.
loss = tf.reduce_mean(
  tf.nn.nce_loss(weights=nce_weights,
                 biases=nce_biases,
                 labels=train_labels,
                 inputs=embed,
                 num_sampled=num_sampled,
                 num_classes=vocabulary_size))

使用随机梯度下降训练

# Construct the SGD optimizer using a learning rate of 1.0.
optimizer = tf.train.GradientDescentOptimizer(1.0).minimize(loss)

最后就是创建session进行训练，详细可看完整源代码。

优化

基础代码只是实现了skip-gram的负采样模型，训练目标为tf.nn.nce_loss(),还可以试试tf.nn.sampled_softmax_loss()，也可以自己定义。

另外，读取数据也不是那么有效（单线程），可以试试New Data Formats中的方法自己定义数据reader，参考代码：
word2vec.py.

如果还想进一步提升效率，可以增加新的算子，参考代码：word2vec_optimized.py

最后编辑于：2017.12.07 22:32:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342

TensorFlow训练词向量

动机

噪声对比训练

Skip-gram模型

实战

优化

推荐阅读更多精彩内容