Tensorflow之tif图像文件预处理

写在前面

许久没有登录我的简书了，或许忙只是给自己的借口，内心浮躁，不愿坐下来静下心写点东西才是真正的原因。写作是个该坚持的好习惯，一方面能记录下一些当时的心情想法，一方面也是在锻炼自己的表达能力。善于抒发，会懂得表达在如今其实对个人而言是个很大的加分项。或者说，起码是我希望自己能够提升的一种能力。
目前我正处于硕士生涯的毕业设计阶段，也正在筹备即将来临的求职季。这个文集也是我在目前这个阶段的记录总结。如果你恰好碰到和我一样或者类似的问题，希望能对你有所帮助。

问题描述

我做的项目与深度学习相关，我选用了Tensorflow作为主要的工具。对于图像文件，为了便于移动以及读取为tf.data.Dataset使用，我想做的预处理便是将图像先转存为TFRecord文件，之后再通过读取TFRecord得到tf.data.Dataset。
这样选择的理由就不在此详细展开，可参考以下几篇文章：

由于Tensorflow目前仅有对bmp，gif，jpeg以及png四种图片的类型的decode方法，对于tif格式的图片文件并不支持，我在写完运行良好的预处理的代码后，不得不又为此修改了一番。接下来我分别描述修改前后的过程，并点出我需要如何改动才能使tif格式的图片也能被良好地预处理。

Figure 1 ref:https://www.tensorflow.org/api_docs/python/tf/io/decode_image

预处理1.0版

代码链接

Pipeline 1.0

起初，我在使用的数据集皆为png格式的图片，Tensorflow包含了相应的decode方法。于是，在tf.read_file和tf.image.decode_png的启发下，我选用了如上图所述的预处理方式：首先将所有的图像文件读取为一个tf.data.Dataset，再存为TFRecord文件。在最终需要训练时再重新将TFRecord文件读取成当初的tf.data.Dataset。这个方法对我所使用的png图片数据而言运行良好。在完成并调试这部分代码的同时，我也通过对其中数次的格式转换的学习，加深了对Tensorflow这部分代码的理解。
[ToThink: 是否需要将其中的细节展开叙述呢？]

碰到问题后的反思

一切顺风顺水，在成功得到了一些测试结果后，我找到了第二个数据集，来进一步检验所使用的方法。不幸的事情发生了，第二个数据集为tif格式的图片，先前写好的预处理方法会报错。进行简单的检索后我发现，已有很多人被同样的问题困扰，在17年时便有人在Tensorflow的Github上提出了这一点。但直至现在，还没有人为此做出贡献。

ref:https://github.com/tensorflow/tensorflow/issues/12997

既然原有的方式不能对tif图片进行预处理，不破不立，我只能推倒重来，尝试用其他的方式在完成这一功能。于是我更仔细地查找资料，阅读源码和自己写的代码，看看能不能找到一个突破口。
首先，我思考的问题是png图片与tif图片究竟有什么不同。png与tif是两种不同的图片格式，具体的区别可以查看以下的这篇文章。
What's the Difference Between PNG, JPEG, GIF, and TIFF?
其中关键的区别是，tif图片并不一定是三通道的图片文件，很可能含有更多的通道。但png，jpeg，bmp等格式的图片，都是单通道（灰度图片）或者三通道（RGB）的图片文件。简单来说，tif图片的通道数的可能很多，并且不同通道中的数值代表的意义也有很大的不同，不仅仅是颜色数值这么简单。或许这就是为何tif图片的decode迟迟没人完成的原因吧。

幸运的是，我所要使用的这个数据集的所有tif图片，都是三通道（RGB）的。从图片数据角度而言，前后两个数据集没有任何区别。于是我返回去查看预处理1.0的代码，重点放在了数据格式的转换上。有了如下的发现：
经tf.read_file函数读取后的返回的类型为A Tensor of type string，是一个Tensor。而如图一所示，Tensorflow中decode_img进行的处理是“ performs the appropriate operation to convert the input bytes string into a Tensor of type dtype.” ，返回类型依然是一个Tensor。但最终转存为TFRecord文件中的确实是转化成字符串的图片文件。

            #代码片段
            #tf.data.Dataset -> TFRecord
            img_data = img.tobytes() 
            mask_data = mask.tobytes() 
            #print(type(img_data))
        
            example=tf.train.Example(features=tf.train.Features(
                    feature={
                    'shape': tf.train.Feature(int64_list = 
                      tf.train.Int64List(value=[img.size[0],
                      img.size[1],len(img.getbands())])),
                    'img_data':tf.train.Feature(bytes_list =
                       tf.train.BytesList(value=[img_data])),
                    'mask_data':tf.train.Feature(bytes_list = 
                        tf.train.BytesList(value=[mask_data]))
                    }))

既然最终需要的是转化为字符串的图片文件，那么中间变成Tensor的几步操作，是可以用其他方式替代的。图片本质而言就是矩阵，对于所有的三通道RGB图片，可将他们直接转化为矩阵先进行一系列预处理操作（如改变大小，旋转，调色），之后再转存为TFRecord文件就可以了。我先前的一个观念是，只有将tf.data.Dataset变成TFRecord，才能再后面从TFRecord变成TFRecordtf.data.Dataset。但在测试后发现，只要有了TFRecord，就能轻易的读取为tf.data.Dataset，不管TFRecord是如何得到的。

预处理2.0版

经过修改，2.0版本的预处理方式便实现出来了。代码链接

Pipeline 2.0

在读取图片时，我选用的库为Pillow，主要原因为其读取tif图片的表现较好。但可能会碰到如下的报错信息：

Hide "TIFFSetField: tempfile.tif: Unknown pseudo-tag 65538."

不要紧张，这只是个小问题，参考如下的信息，将PIL更新至5.4.0之后的版本就行啦！
Hide "TIFFSetField: tempfile.tif: Unknown pseudo-tag 65538." messages

总结

本文总结并介绍了在Tensorflow下预处理tif图像的一种方式。在至今Tensorflow仍没给出tif的decode函数的情况下，我们可以选用先直接将图像转化成矩阵，经预处理后再转存为TFRecord的方式进行预处理。
从这个过程中，我不得不深入的去思考整个格式转换的的过程。在我看来，最重要的一点，便是看清楚最终转换的目标结果，通过结果再思考选用的方式和流程。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342