学习笔记TF036:实现Bidirectional LSTM Classifier

双向循环神经网络(Bidirectional Recurrent Neural Networks,Bi-RNN)，Schuster、Paliwal，1997年首次提出，和LSTM同年。Bi-RNN，增加RNN可利用信息。普通MLP，数据长度有限制。RNN，可以处理不固定长度时序数据，无法利用历史输入未来信息。Bi-RNN，同时使用时序数据输入历史及未来数据，时序相反两个循环神经网络连接同一输出，输出层可以同时获取历史未来信息。

Language Modeling，不适合Bi-RNN，目标是通过前文预测下一单词，不能将下文信息传给模型。分类问题，手写文字识别、机器翻译、蛋白结构预测，Bi-RNN提升模型效果。百度语音识别，通过Bi-RNN综合上下文语境，提升模型准确率。

Bi-RNN网络结构核心，普通单向RNN拆成两个方向，随时序正向，逆时序反赂。当前时间节点输出，同时利用正向、反向两个方向信息。两个不同方向RNN不共用state，正向RNN输出state只传给正向RNN，反向RNN输出state只传给反向RNN，正反向RNN没有直接连接。每个时间节点输入，分别传给正反向RNN，根据各自状态产生输出，两份输出一起连接到Bi-RNN输出节点，共同合成最终输出。对当前时间节点输出贡献(或loss)，在训练中计算出来，参数根据梯度优化到合适值。

Bi-RNN训练，正反向RNN没有交集，分别展开普通前馈网络。BPTT(back-propagation through time)算法训练，无法同时更新状态、输出。正向state在t=1时未知，反向state在t=T时未知，state在正反向开始处未知，需人工设置。正向状态导数在t=T时未知，反向状态导数在t=1时未知，state导数在正反向结晶尾处未知，需设0代表参数更新不重要。

开始训练，第一步，输入数据forward pass操作，inference操作，先沿1->T方向计算正向RNN state，再沿T->1方向计算反向RNN state，获得输出output。第二步，backward pass操作，目标函数求导操作，先求导输出output，先沿T->1方向计算正向RNN state导数，再沿1->T方向计算反向RNN state导数。第三步，根据求得梯度值更新模型参数，完成训练。

Bi-RNN每个RNN单元，可以是传统RNN，可以是LSTM或GRU单元。可以在一层Bi-RNN上再叠加一层Bi-RNN，上层Bi-RNN输出作下层Bi-RNN输入，可以进一步抽象提炼特征。分类任务，Bi-RNN输出序列连接全连接层，或连接全局平均池化Global Average Pooling，再接Softmax层，和卷积网络一样。

TensorFlow实现Bidirectional LSTM Classifier，在MNIST数据集测试。载入TensorFlow、NumPy、TensorFlow自带MNIST数据读取器。input_data.read_data_sets下载读取MNIST数据集。

设置训练参数。设置学习速率 0.01,优化器选择Adam，学习速率低。最大训练样本数 40万，batch_size 128,设置每间隔10次训练展示训练情况。

MNIST图像尺寸 28x28,输入n_input 28(图像宽)，n_steps LSTM展开步数(unrolled steps of LSTM)，设28(图像高)，图像全部信息用上。一次读取一行像素(28个像素点)，下个时间点再传入下一行像素点。n_hidden(LSTM隐藏节点数)设256,n_classes(MNIST数据集分类数目)设10。

创建输入x和学习目标y 的place_holder。输入x每个样本直接用二维结构。样本为一个时间序列，第一维度时间点n_steps，第二维度每个时间点数据n_input。设置Softmax层weights和biases，tf.random_normal初始化参数。双向LSTM，forward、backward两个LSTM cell，weights参数数量翻倍，2*n_hidden。

定义Bidirectional LSTM网络生成函数。形状(batch_size,n_steps,n_input)输入变长度n_steps列表，元素形状(batch_size,n_input)。输入转置，tf.transpose(x,[1,0,2])，第一维度batch_size，第二维度n_steps，交换。tf.reshape，输入x变(n_steps*batch_size,n_input)形状。 tf.split，x拆成长度n_steps列表，列表每个tensor尺寸(batch_size,n_input)，符合LSTM单元输入格式。tf.contrib.rnn.BasicLSTMCell，创建forward、backward LSTM单元，隐藏节点数设n_hidden，forget_bias设1。正向lstm_fw_cell和反向lstm_bw_cell传入Bi-RNN接口tf.nn.bidirectional_rnn，生成双向LSTM，传入x输入。双向LSTM输出结果output做矩阵乘法加偏置，参数为前面定义weights、biases。

最后输出结果，tf.nn.softmax_cross_entropy_with_logits，Softmax处理计算损失。tf.reduce_mean计算平均cost。优化器Adam，学习速率learning_rate。tf.argmax得到模型预测类别，tf.equal判断是否预测正确。tf.reduce_mean求平均准确率。

执行训练和测试操作。执行初始化参数，定义一个训练循环，保持总训练样本数(迭代数*batch_size)小于设定值。每轮训练迭代，mnist.train.next_batch拿到一个batch数据，reshape改变形状。包含输入x和训练目标y的feed_dict传入，执行训练操作，更新模型参数。迭代数display_step整数倍，计算当前batch数据预测准确率、loss，展示。

全部训练迭代结果，训练好模型，mnist.test.images全部测试数据预测，展示准确率。

完成40万样本训练，训练集预测准确率基本是1,10000样本测试集0.983准确率。

Bidirectional LSTM Classifier，MNIST数据集表现不如卷积神经网络。Bi-RNN、双向LSTM网络，时间序列分类任务表现更好，同时利用时间序列历史和未来信息，结合上下文信息，结果综合判断。

import tensorflow as tf
import numpy as np
# Import MINST data
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)
# Parameters
learning_rate = 0.01
max_samples = 400000
batch_size = 128
display_step = 10
# Network Parameters
n_input = 28 # MNIST data input (img shape: 28*28)
n_steps = 28 # timesteps
n_hidden = 256 # hidden layer num of features
n_classes = 10 # MNIST total classes (0-9 digits)
# tf Graph input
x = tf.placeholder("float", [None, n_steps, n_input])
y = tf.placeholder("float", [None, n_classes])
# Define weights
weights = {
    # Hidden layer weights => 2*n_hidden because of foward + backward cells
    'out': tf.Variable(tf.random_normal([2*n_hidden, n_classes]))
}
biases = {
    'out': tf.Variable(tf.random_normal([n_classes]))
}
def BiRNN(x, weights, biases):
    # Prepare data shape to match `bidirectional_rnn` function requirements
    # Current data input shape: (batch_size, n_steps, n_input)
    # Required shape: 'n_steps' tensors list of shape (batch_size, n_input)

    # Permuting batch_size and n_steps
    x = tf.transpose(x, [1, 0, 2])
    # Reshape to (n_steps*batch_size, n_input)
    x = tf.reshape(x, [-1, n_input])
    # Split to get a list of 'n_steps' tensors of shape (batch_size, n_input)
    x = tf.split(x, n_steps)
    # Define lstm cells with tensorflow
    # Forward direction cell
    lstm_fw_cell = tf.contrib.rnn.BasicLSTMCell(n_hidden, forget_bias=1.0)
    # Backward direction cell
    lstm_bw_cell = tf.contrib.rnn.BasicLSTMCell(n_hidden, forget_bias=1.0)
    # Get lstm cell output
#    try:
    outputs, _, _ = tf.contrib.rnn.static_bidirectional_rnn(lstm_fw_cell, lstm_bw_cell, x,
                                       dtype=tf.float32)
#    except Exception: # Old TensorFlow version only returns outputs not states
#        outputs = rnn.bidirectional_rnn(lstm_fw_cell, lstm_bw_cell, x,
#                                        dtype=tf.float32)
    # Linear activation, using rnn inner loop last output
    return tf.matmul(outputs[-1], weights['out']) + biases['out']

pred = BiRNN(x, weights, biases)
# Define loss and optimizer
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=pred, labels=y))
optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(cost)
# Evaluate model
correct_pred = tf.equal(tf.argmax(pred,1), tf.argmax(y,1))
accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))
# Initializing the variables
init = tf.global_variables_initializer()
# Launch the graph
with tf.Session() as sess:
    sess.run(init)
    step = 1
    # Keep training until reach max iterations
    while step * batch_size < max_samples:
        batch_x, batch_y = mnist.train.next_batch(batch_size)
        # Reshape data to get 28 seq of 28 elements
        batch_x = batch_x.reshape((batch_size, n_steps, n_input))
        # Run optimization op (backprop)
        sess.run(optimizer, feed_dict={x: batch_x, y: batch_y})
        if step % display_step == 0:
            # Calculate batch accuracy
            acc = sess.run(accuracy, feed_dict={x: batch_x, y: batch_y})
            # Calculate batch loss
            loss = sess.run(cost, feed_dict={x: batch_x, y: batch_y})
            print("Iter " + str(step*batch_size) + ", Minibatch Loss= " + \
                  "{:.6f}".format(loss) + ", Training Accuracy= " + \
                  "{:.5f}".format(acc))
        step += 1
    print("Optimization Finished!")
    # Calculate accuracy for 128 mnist test images
    test_len = 10000
    test_data = mnist.test.images[:test_len].reshape((-1, n_steps, n_input))
    test_label = mnist.test.labels[:test_len]
    print("Testing Accuracy:", \
        sess.run(accuracy, feed_dict={x: test_data, y: test_label}))

参考资料：
《TensorFlow实战》

欢迎付费咨询(150元每小时)，我的微信：qingxingfengzi

最后编辑于：2017.12.09 14:35:04

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,784评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,745评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,702评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,229评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,245评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,376评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,798评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,471评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,655评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,485评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,535评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,235评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,793评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,863评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,096评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,654评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,233评论 2赞 341

学习笔记TF036:实现Bidirectional LSTM Classifier

推荐阅读更多精彩内容