使用TensorFlow Dataset读取数据

在使用TensorFlow构建模型并进行训练时，如何读取数据并将数据恰当地送进模型，是一个首先需要考虑的问题。以往通常所用的方法无外乎以下几种：

1.建立placeholder，然后使用feed_dict将数据feed进placeholder进行使用。使用这种方法十分灵活，可以一下子将所有数据读入内存，然后分batch进行feed；也可以建立一个Python的generator，一个batch一个batch的将数据读入，并将其feed进placeholder。这种方法很直观，用起来也比较方便灵活，但是这种方法的效率较低，难以满足高速计算的需求。

2.使用TensorFlow的QueueRunner，通过一系列的Tensor操作，将磁盘上的数据分批次读入并送入模型进行使用。这种方法效率很高，但因为其牵涉到Tensor操作，不够直观，也不方便调试，所有有时候会显得比较困难。使用这种方法时，常用的一些操作包括tf.TextLineReader，tf.FixedLengthRecordReader以及tf.decode_raw等等。如果需要循环，条件操作，还需要使用TensorFlow的tf.while_loop，tf.case等操作，更是难上加难。

因此，在这种情况下，TensorFlow在后续的更新中，自1.x版本开始，逐步开发引入了tf.data.Dataset模块，使其数据读入的操作变得更为方便，而支持多线程（进程）的操作，也在效率上获得了一定程度的提高。本文就将使用tf.data.Dataset过程中的一些经验进行总结记录，以便备忘。

如我们所知，在使用TensorFlow建立模型进行训练的时候，可以很容易生成这样的文件，来表示数据：

1.  data/01.jpg,猫
2.  data/05.jpg,狗
3.  data/03.jpg,猫
4.  data/04.jpg,狗
5.  data/06.jpg,狗
6.  data/02.jpg,猫

这种数据格式可以很方便地进行各种操作，比如划分数据集、shuffle等等。所以我们就以将这样的数据通过tf.data.Dataset读入进行训练为例，来讲述其用法。

具体来说，使用tf.data.Dataset读取数据，本文讲述这样三种方法：

1.首先将数据读入内存，然后使用tf.data.Dataset构建数据集

具体来说，因为tf.data.Dataset.from_tensor_slices()函数会对tensor和numpy array的处理一视同仁，所以该函数既可以使用tensor参数，也可以直接使用numpy array作参数，使用numpy array作参数，即是第1种方法。

如下所示：

1.  images = ...
2.  labels = ...
3.  data = tf.data.Dataset.from_tensor_slices((images, labels))
4.  data = data.batch(batch_size)
5.  iterator = tf.data.Iterator.from_structure(data.output_types,
6.  data.output_shapes)
7.  init_op = iterator.make_initializer(data)
8.  with tf.Session()  as sess:
9.  sess.run(init_op)
10.  try:
11.  images, labels = iterator.get_next()
12.  except tf.errors.OutOfRangeError:
13.  sess.run(init_op)

第1~2行，首先，将数据images、labels读入内存；

第3~4行，使用读入内存的数据images、labels构建Dataset，并设置Dataset的batch大小；

第5行，基于此前构建的Dataset的数据类型和结构，构建一个iterator；

第6行，基于此前构建的Dataset构建一个初始化op。

随后的操作，即是在TensorFlow的session里，首先进行初始化操作，然后即可通过iterator的函数逐批获得数据，并进行使用了。

需要注意的是，iterator中的元素取完之后，会抛出OutOfRangeError异常，TensorFlow没有对这个异常进行处理，我们需要对其进行捕捉和处理。

本方法详细代码可参阅这里。

2.使用tf.data.Dataset包装一个generator读入数据

1中方法虽然简单，但其将数据一次读入，在面对大数据集时会束手无策。因此，我们可以建立一个读入数据的generator，然后使用tf.data.Dataset对其进行包装转换，即可实现逐batch读入数据的目的。如下：

1.  def gen():
2.  with  open('train.csv')  as f:
3.  lines = [line.strip().split(',')  for line in f.readlines()]
4.  index = 0
5.  while  True:
6.  image = cv2.imread(lines[index][0])
7.  image = cv2.resize(image, (224, 224))
8.  label = lines[index][1]
9.  yield  (image, label)
10.  index += 1
11.  if index == len(lines):
12.  index = 0

15.  batch_size = 2
16.  data = tf.data.Dataset.from_generator(gen, (tf.float32, tf.int32),
17.  (tf.TensorShape([224, 224, 3]), tf.TensorShape([])))
18.  data = data.batch(batch_size)
19.  iter = data.make_one_shot_iterator()
20.  with tf.Session()  as sess:
21.  images, labels = iter.get_next()

如上，首先构建一个generator：gen，然后使用tf.data.Dataset的from_generator函数，通过指定数据类型，数据的shape等参数，构建一个Dataset，当然，随后也要指定一下batch_size，最后使用make_one_shot_iterator()函数，构建一个iterator。

然后其使用方法即与前述相同了，不过需要说明的是，这里是通过一个永无尽头的generator构建的Dataset，所以其可以一直取数据，而不会出现1中所述的OutOfRange的问题。

本方法详细代码可参阅这里。

3.基于Tensor操作构建Dataset

前述两种方法，1中需要将数据一次全部读入内存，2中使用generator逐batch读入数据，虽然内存占用得到了控制，但是其效率仍然不高，读取速度较慢。在第3种方法里，我们通过TensorFlow提供的tensor操作来读取数据，并基于此，构建Dataset。

示例的代码片段如下：

1.  def _parse_function(filename, label):
2.  image_string = tf.read_file(filename)
3.  image_decoded = tf.image.decode_jpeg(image_string, channels=3)
4.  image = tf.cast(image_decoded, tf.float32)
5.  image = tf.image.resize_images(image, [224, 224])
6.  return image, filename, label

8.  images = tf.constant(image_names)
9.  labels = tf.constant(labels)
10.  images = tf.random_shuffle(images, seed=0)
11.  labels = tf.random_shuffle(labels, seed=0)
12.  data = tf.data.Dataset.from_tensor_slices((images, labels))

14.  data = data.map(_parse_function, num_parallel_calls=4)
15.  data = data.prefetch(buffer_size=batch_size * 10)
16.  data = data.batch(batch_size)

18.  iterator = tf.data.Iterator.from_structure(data.output_types,
19.  data.output_shapes)

21.  init_op = iterator.make_initializer(data)
22.  with tf.Session()  as sess:
23.  sess.run(init_op)
24.  try:
25.  images, filenames, labels = iterator.get_next()
26.  except tf.errors.OutOfRangeError:
27.  sess.run(init_op)

首先读入image names以及相应的labels，然后通过tf.constant构建constant Tensor：images, labels，并可选择地对其进行shuffle。

接着使用tf.data.Dataset.from_tensor_slices()函数基于images和labels构建Dataset。

然后使用map函数将函数应用到该Dataset上，本例中，将解析图像的函数_parse_function应用到Dataset上，还指定了多线程并行操作的线程数。

随后指定prefetch的buffer_size，以及batch的大小。

最后，基于构建的Dataset建立iterator，并定义iterator的初始化操作op，然后就可以按照正常的方式进行使用了。

需要注意的是，本方法构建的Dataset也会有OutOfRange的异常出现，需要恰当地进行捕捉并处理。

本方法详细代码可参阅这里。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,784评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,745评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,702评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,229评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,245评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,376评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,798评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,471评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,655评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,485评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,535评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,235评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,793评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,863评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,096评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,654评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,233评论 2赞 341

使用TensorFlow Dataset读取数据

1.首先将数据读入内存，然后使用tf.data.Dataset构建数据集

2.使用tf.data.Dataset包装一个generator读入数据

3.基于Tensor操作构建Dataset

推荐阅读更多精彩内容