写在前面
许久没有登录我的简书了,或许忙只是给自己的借口,内心浮躁,不愿坐下来静下心写点东西才是真正的原因。写作是个该坚持的好习惯,一方面能记录下一些当时的心情想法,一方面也是在锻炼自己的表达能力。善于抒发,会懂得表达在如今其实对个人而言是个很大的加分项。或者说, 起码是我希望自己能够提升的一种能力。
目前我正处于硕士生涯的毕业设计阶段,也正在筹备即将来临的求职季。这个文集也是我在目前这个阶段的记录总结。如果你恰好碰到和我一样或者类似的问题,希望能对你有所帮助。
问题描述
我做的项目与深度学习相关,我选用了Tensorflow作为主要的工具。对于图像文件,为了便于移动以及读取为tf.data.Dataset使用,我想做的预处理便是将图像先转存为TFRecord文件,之后再通过读取TFRecord得到tf.data.Dataset。
这样选择的理由就不在此详细展开,可参考以下几篇文章:
- TensorFlow中层API:Datasets+TFRecord的数据导入
- Tensorflow Records? What they are and how to use them
- TensorFlow全新的数据读取方式:Dataset API入门教程
由于Tensorflow目前仅有对bmp,gif,jpeg以及png四种图片的类型的decode方法,对于tif格式的图片文件并不支持,我在写完运行良好的预处理的代码后,不得不又为此修改了一番。接下来我分别描述修改前后的过程,并点出我需要如何改动才能使tif格式的图片也能被良好地预处理。
预处理1.0版
起初,我在使用的数据集皆为png格式的图片,Tensorflow包含了相应的decode方法。于是,在tf.read_file和tf.image.decode_png的启发下,我选用了如上图所述的预处理方式:首先将所有的图像文件读取为一个tf.data.Dataset,再存为TFRecord文件。在最终需要训练时再重新将TFRecord文件读取成当初的tf.data.Dataset。这个方法对我所使用的png图片数据而言运行良好。在完成并调试这部分代码的同时,我也通过对其中数次的格式转换的学习,加深了对Tensorflow这部分代码的理解。
[ToThink: 是否需要将其中的细节展开叙述呢?]
碰到问题后的反思
一切顺风顺水,在成功得到了一些测试结果后,我找到了第二个数据集,来进一步检验所使用的方法。不幸的事情发生了,第二个数据集为tif格式的图片,先前写好的预处理方法会报错。进行简单的检索后我发现,已有很多人被同样的问题困扰,在17年时便有人在Tensorflow的Github上提出了这一点。但直至现在,还没有人为此做出贡献。
既然原有的方式不能对tif图片进行预处理,不破不立,我只能推倒重来,尝试用其他的方式在完成这一功能。于是我更仔细地查找资料,阅读源码和自己写的代码,看看能不能找到一个突破口。
首先,我思考的问题是png图片与tif图片究竟有什么不同。png与tif是两种不同的图片格式,具体的区别可以查看以下的这篇文章。
What's the Difference Between PNG, JPEG, GIF, and TIFF?
其中关键的区别是,tif图片并不一定是三通道的图片文件,很可能含有更多的通道。但png,jpeg,bmp等格式的图片,都是单通道(灰度图片)或者三通道(RGB)的图片文件。简单来说,tif图片的通道数的可能很多,并且不同通道中的数值代表的意义也有很大的不同,不仅仅是颜色数值这么简单。或许这就是为何tif图片的decode迟迟没人完成的原因吧。
幸运的是,我所要使用的这个数据集的所有tif图片,都是三通道(RGB)的。从图片数据角度而言,前后两个数据集没有任何区别。于是我返回去查看预处理1.0的代码,重点放在了数据格式的转换上。有了如下的发现:
经tf.read_file函数读取后的返回的类型为A Tensor of type string,是一个Tensor。而如图一所示,Tensorflow中decode_img进行的处理是“ performs the appropriate operation to convert the input bytes string into a Tensor of type dtype.” ,返回类型依然是一个Tensor。但最终转存为TFRecord文件中的确实是转化成字符串的图片文件。
#代码片段
#tf.data.Dataset -> TFRecord
img_data = img.tobytes()
mask_data = mask.tobytes()
#print(type(img_data))
example=tf.train.Example(features=tf.train.Features(
feature={
'shape': tf.train.Feature(int64_list =
tf.train.Int64List(value=[img.size[0],
img.size[1],len(img.getbands())])),
'img_data':tf.train.Feature(bytes_list =
tf.train.BytesList(value=[img_data])),
'mask_data':tf.train.Feature(bytes_list =
tf.train.BytesList(value=[mask_data]))
}))
既然最终需要的是转化为字符串的图片文件,那么中间变成Tensor的几步操作,是可以用其他方式替代的。图片本质而言就是矩阵,对于所有的三通道RGB图片,可将他们直接转化为矩阵先进行一系列预处理操作(如改变大小,旋转,调色),之后再转存为TFRecord文件就可以了。我先前的一个观念是,只有将tf.data.Dataset变成TFRecord,才能再后面从TFRecord变成TFRecordtf.data.Dataset。但在测试后发现,只要有了TFRecord,就能轻易的读取为tf.data.Dataset,不管TFRecord是如何得到的。
预处理2.0版
经过修改,2.0版本的预处理方式便实现出来了。代码链接
在读取图片时,我选用的库为Pillow,主要原因为其读取tif图片的表现较好。但可能会碰到如下的报错信息:
Hide "TIFFSetField: tempfile.tif: Unknown pseudo-tag 65538."
不要紧张,这只是个小问题,参考如下的信息,将PIL更新至5.4.0之后的版本就行啦!
Hide "TIFFSetField: tempfile.tif: Unknown pseudo-tag 65538." messages
总结
本文总结并介绍了在Tensorflow下预处理tif图像的一种方式。在至今Tensorflow仍没给出tif的decode函数的情况下,我们可以选用先直接将图像转化成矩阵,经预处理后再转存为TFRecord的方式进行预处理。
从这个过程中,我不得不深入的去思考整个格式转换的的过程。在我看来,最重要的一点,便是看清楚最终转换的目标结果,通过结果再思考选用的方式和流程。