语法 | 功能 |
---|---|
tf.constant() | 返回tensor独有变量 |
with tf.Session() as sess: output = sess.run() |
开始流程 |
x = tf.placeholder(tf.string) tf.placeholder(tf.float32, [None, n_input]) |
定义变量的类型 |
feed_dict={x: 'Hello World'} | 数据投喂器赋值给定义好的空壳 feed_dict可以设置多个tensor sess.run(x, feed_dict={x: 'Test String', y: 123, z: 45.67}) |
tf.add(5, 2) | 加法 |
tf.subtract(10, 4) | 减法 |
tf.multiply(2, 5) | 乘法 |
tf.cast(tf.constant(2.0), tf.int32) | 转化类型防止报错 |
tf.Variable() | 定义变量 |
weights = tf.Variable(tf.truncated_normal((n_features, n_labels))) | 以正态分布初始化矩阵 |
bias =tf.Variable(tf.zeros(n_labels)) | 初始化为0矩阵 |
tf.global_variables_initializer() | 全局可变变量初始化 |
全局初始化后 需要时微调:正太初始化 | |
tf.matmul() | A*B(np.dot) |
tf.multiply() | A.*B(*) |
logits = linear(features, w, b) | 定义线性回归 |
x = tf.nn.softmax([2.0, 1.0, 0.2]) | softmax函数 |
x = tf.reduce_sum([1, 2, 3, 4, 5]) #15 | 输入序列返回和 |
softmax_data = [0.7, 0.2, 0.1] one_hot_data = [1.0, 0.0, 0.0] -tf.reduce_sum(tf.multiply(one_hot, tf.log(softmax))) |
[图片上传失败...(image-a5cacb-1563680429150)]交叉熵 |
.flatten() | 展开为行向量 |
resample(data1,data2,n_samples=大小) | 重采样 |
a=LabelBinarizer() a.fit(labellist) a.transform(labellist) |
标签二值化 |
train_test_split( train_features, train_labels, test_size=0.05, random_state=832289) |
划分训练集 |
save_file = './model.ckpt' saver = tf.train.Saver() saver.save(sess, save_file) |
保存变量 |
tf.reset_default_graph()#移除参数 save_file = './model.ckpt' saver = tf.train.Saver() saver.restore(sess, save_file) |
载入变量 |
Hello, Tensor World!
让我们来分析一下你刚才运行的 Hello World 的代码。代码如下:
import tensorflow as tf
# Create TensorFlow object called hello_constant
hello_constant = tf.constant('Hello World!')
with tf.Session() as sess:
# Run the tf.constant operation in the session
output = sess.run(hello_constant)
print(output)
Tensor
在 TensorFlow 中,数据不是以整数、浮点数或者字符串形式存储的。这些值被封装在一个叫做 tensor 的对象中。在 hello_constant = tf.constant('Hello World!')
代码中,hello_constant
是一个 0 维度的字符串 tensor,tensor 还有很多不同大小:
# A is a 0-dimensional int32 tensor
A = tf.constant(1234)
# B is a 1-dimensional int32 tensor
B = tf.constant([123,456,789])
# C is a 2-dimensional int32 tensor
C = tf.constant([ [123,456,789], [222,333,444] ])
tf.constant()
是你在本课中即将使用的多个 TensorFlow 运算之一。tf.constant()
返回的 tensor 是一个常量 tensor,因为这个 tensor 的值不会变。
Session
TensorFlow 的 api 构建在 computational graph 的概念上,它是一种对数学运算过程进行可视化的方法(在 MiniFlow 这节课中学过)。让我们把你刚才运行的 TensorFlow 代码变成一个图:
如上图所示,一个 "TensorFlow Session" 是用来运行图的环境。这个 session 负责分配 GPU(s) 和/或 CPU(s),包括远程计算机的运算。让我们看看如何使用它:
with tf.Session() as sess:
output = sess.run(hello_constant)
代码已经从之前的一行中创建了 tensor hello_constant
。接下来是在 session 里对 tensor 求值。
这段代码用 tf.Session
创建了一个 sess
的 session 实例。然后 sess.run()
函数对 tensor 求值,并返回结果。
输入
在上一小节中,你向 session 传入一个 tensor 并返回结果。如果你想使用一个非常量(non-constant)该怎么办?这就是 tf.placeholder()
和 feed_dict
派上用场的时候了。这一节将向你讲解向 TensorFlow 传输数据的基础知识。
tf.placeholder()
很遗憾,你不能把数据集赋值给 x
再将它传给 TensorFlow。因为之后你会想要你的 TensorFlow 模型对不同的数据集采用不同的参数。你需要的是 tf.placeholder()
!
数据经过 tf.session.run()
函数得到的值,由 tf.placeholder()
返回成一个 tensor,这样你可以在 session 运行之前,设置输入。
Session 的 feed_dict
投食机
x = tf.placeholder(tf.string)
with tf.Session() as sess:
output = sess.run(x, feed_dict={x: 'Hello World'})
用 tf.session.run()
里的 feed_dict
参数设置占位 tensor。上面的例子显示 tensor x
被设置成字符串 "Hello, world"
。如下所示,也可以用 feed_dict
设置多个 tensor。
x = tf.placeholder(tf.string)
y = tf.placeholder(tf.int32)
z = tf.placeholder(tf.float32)
with tf.Session() as sess:
output = sess.run(x, feed_dict={x: 'Test String', y: 123, z: 45.67})
注意:
如果传入 feed_dict
的数据与 tensor 类型不符,就无法被正确处理,你会得到 “ValueError: invalid literal for
...”。
TensorFlow 数学
获取输入很棒,但是现在你需要使用它。你将使用每个人都懂的基础数学运算,加、减、乘、除,来处理 tensor。(更多数学函数请查看文档)。
加法
x = tf.add(5, 2) # 7
从加法开始,tf.add()
函数如你所想,它传入两个数字、两个 tensor、或数字和 tensor 各一个,以 tensor 的形式返回它们的和。
减法和乘法
这是减法和乘法的例子:
x = tf.subtract(10, 4) # 6
y = tf.multiply(2, 5) # 10
x
tensor 求值结果是 6
,因为 10 - 4 = 6
。y
tensor 求值结果是 10
,因为 2 * 5 = 10
。是不是很简单!
类型转换
为了让特定运算能运行,有时会对类型进行转换。例如,你尝试下列代码,会报错:
tf.subtract(tf.constant(2.0),tf.constant(1)) # Fails with ValueError: Tensor conversion requested dtype float32 for Tensor with dtype int32:
这是因为常量 1
是整数,但是常量 2.0
是浮点数,subtract
需要它们的类型匹配。
在这种情况下,你可以确保数据都是同一类型,或者强制转换一个值为另一个类型。这里,我们可以把 2.0
转换成整数再相减,这样就能得出正确的结果:
tf.subtract(tf.cast(tf.constant(2.0), tf.int32), tf.constant(1)) # 1
TensorFlow 里的线性函数
神经网络中最常见的运算,就是计算输入、权重和偏差的线性组合。回忆一下,我们可以把线性运算的输出写成:
[图片上传失败...(image-7fa739-1563506547189)]
这里 <math><semantics><annotation encoding="application/x-tex">\mathbf{W}</annotation></semantics></math>W 是连接两层的权重矩阵。输出 <math><semantics><annotation encoding="application/x-tex">\mathbf{y}</annotation></semantics></math>y,输入 <math><semantics><annotation encoding="application/x-tex">\mathbf{x}</annotation></semantics></math>x,偏差 <math><semantics><annotation encoding="application/x-tex">\mathbf{b}</annotation></semantics></math>b 全部都是向量。
TensorFlow 里的权重和偏差
训练神经网络的目的是更新权重和偏差来更好地预测目标。为了使用权重和偏差,你需要一个能修改的 Tensor。这就排除了 tf.placeholder()
和 tf.constant()
,因为它们的 Tensor 不能改变。这里就需要 tf.Variable
了。
tf.Variable()
x = tf.Variable(5)
tf.Variable
类创建一个 tensor,其初始值可以被改变,就像普通的 Python 变量一样。该 tensor 把它的状态存在 session 里,所以你必须手动初始化它的状态。你将使用 tf.global_variables_initializer()
函数来初始化所有可变 tensor。
初始化
init = tf.global_variables_initializer()
with tf.Session() as sess:
sess.run(init)
tf.global_variables_initializer()
会返回一个操作,它会从 graph 中初始化所有的 TensorFlow 变量。你可以通过 session 来调用这个操作来初始化所有上面的变量。用 tf.Variable
类可以让我们改变权重和偏差,但还是要选择一个初始值。
从正态分布中取随机数来初始化权重是个好习惯。随机化权重可以避免模型每次训练时候卡在同一个地方。在下节学习梯度下降的时候,你将了解更多相关内容。
类似地,从正态分布中选择权重可以避免任意一个权重与其他权重相比有压倒性的特性。你可以用 tf.truncated_normal()
函数从一个正态分布中生成随机数。
tf.truncated_normal()
n_features = 120
n_labels = 5
weights = tf.Variable(tf.truncated_normal((n_features, n_labels)))
tf.truncated_normal()
返回一个 tensor,它的随机值取自一个正态分布,并且它们的取值会在这个正态分布平均值的两个标准差之内。
因为权重已经被随机化来帮助模型不被卡住,你不需要再把偏差随机化了。让我们简单地把偏差设为 0。
tf.zeros()
n_labels = 5
bias = tf.Variable(tf.zeros(n_labels))
tf.zeros()
函数返回一个都是 0 的 tensor。
线性分类练习
你将试着使用 TensorFlow 来对 MNIST 数据集中的手写数字 0
、1
、2
进行分类。上图是你训练数据的小部分示例。你会注意到有些 1
在顶部有不同角度的 serif(衬线体)。这些相同点和不同点对构建模型的权重会有影响。
上图是每个 label (0
, 1
, 2
) 训练得到的权重。权重显示了它们找到的每个数字的特性。用 MNIST 来训练你的权重,完成这个练习。
因为 xW + b
中的 xW
是矩阵相乘,所以你要用 tf.matmul()
函数,而不是 tf.multiply()
。不要忘记矩阵相乘的规则,tf.matmul(a,b)
不等于 tf.matmul(b,a)
。
TensorFlow Softmax
Softmax 函数可以把它的输入,通常被称为 logits 或者 logit scores,处理成 0 到 1 之间,并且能够把输出归一化到和为 1。这意味着 softmax 函数与分类的概率分布等价。它是一个网络预测多分类问题的最佳输出激活函数。
TensorFlow Softmax
当我们用 TensorFlow 来构建一个神经网络时,相应地,它有一个计算 softmax 的函数。
x = tf.nn.softmax([2.0, 1.0, 0.2])
就是这么简单,tf.nn.softmax()
直接为你实现了 softmax 函数,它输入 logits,返回 softmax 激活函数。
Mini-batching
在这一节,你将了解什么是 mini-batching,以及如何在 TensorFlow 里应用它。
Mini-batching 是一个一次训练数据集的一小部分,而不是整个训练集的技术。它可以使内存较小、不能同时训练整个数据集的电脑也可以训练模型。
Mini-batching 从运算角度来说是低效的,因为你不能在所有样本中计算 loss。但是这点小代价也比根本不能运行模型要划算。
它跟随机梯度下降(SGD)结合在一起用也很有帮助。方法是在每一代训练之前,对数据进行随机混洗,然后创建 mini-batches,对每一个 mini-batch,用梯度下降训练网络权重。因为这些 batches 是随机的,你其实是在对每个 batch 做随机梯度下降(SGD)。
让我们看看你的机器能否训练出 MNIST 数据集的权重和偏置项。
from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf
n_input = 784 # MNIST data input (img shape: 28*28)
n_classes = 10 # MNIST total classes (0-9 digits)
Import MNIST data
mnist = input_data.read_data_sets('/datasets/ud730/mnist', one_hot=True)
The features are already scaled and the data is shuffled
train_features = mnist.train.images
test_features = mnist.test.images
train_labels = mnist.train.labels.astype(np.float32)
test_labels = mnist.test.labels.astype(np.float32)
Weights & bias
weights = tf.Variable(tf.random_normal([n_input, n_classes]))
bias = tf.Variable(tf.random_normal([n_classes]))
`