论文 | 糖网病分级诊断之 Zoom-in-Net

文 | 全世界最乖巧的小猪

Zoom-in-Net: Deep Mining Lesions for Diabetic Retinopathy Detection

这是一篇关于糖尿病视网膜病变分级诊断的论文，由来自港中文、清华大学等作者发表于MICCAI2018，下载地址：Zoom-in-Net: Deep Mining Lesions for Diabetic Retinopathy Detection

摘要

本文提出了一种能够同时诊断糖网病并突出可疑病灶区域的卷积神经网络，主要贡献体现在以下两方面：1）提出放大网络，模拟医生在诊断时放大图像的过程。仅仅在图像级（image-level）的监督下训练，放大网络就可以生成注意力图（attention map）来显示可疑病灶点区域，并综合整张图像和其中高分辨率的可疑patches，来准确地预测疾病等级。2）由注意力图生成的仅4个边框（bounding box）就足以覆盖由医生标注出来的80%的病灶点，显示了注意力图强大的定位能力，通过将注意力图上高反应位置（high response locations）的特征聚类，可以发现非常有意义的簇，包含了糖网病中的潜在病灶。实验表明，本算法在EyePACS和Messidor数据集上的表现都超过了state-of-the-art方法，很不错！

1 文章简介

识别医疗图像的可疑区域非常重要，但是目前的工作主要依靠强监督，也就是需要精确的病灶点位置信息。由于标注医疗图像的成本太昂贵了，从而大大限制了数据集的规模，因此，急需一个算法，能够通过弱监督的方法利用大数据集同时进行分类和定位任务。

本文提出了广义弱监督学习框架，叫做基于卷积神经网络的放大网络。该方法可以进行准确分类，同时自动检测图像中的病灶点，仅用几个边框就可以达到高召回率。这个框架可以拓展到各种分类问题上，并为医生提供更方便的检查。

本文将在糖网病问题上验证这个框架的有效性，(此处跳过介绍糖网病和前人工作)。

放大网络使用了注意力机制，仅用图像级监督就可以生成注意力图。注意力图是一种热力图，表示哪些像素对最终图像级预测起到重要作用。此外，放大网络的确名副其实，它模拟了医生在诊断时，首先浏览整张图像来辨认病灶点，然后放大图像进一步验证病灶点的过程。放大网络在EyePACS数据集（也就是kaggle糖网病竞赛使用的数据集）和Messidor数据集上进行验证，表现都超过了state-of-the-art方法和普通医生。另外，注意力定位的准确率在200张专业医生标注的图像上进行验证，达到了0.82的召回率。注意力图中高反应位置的聚类区域显示了糖网病中非常有意义的病灶点。

2 放大网络结构框架

放大网络从糖网病检测的图像级监督中学习，却同时实现了图像分级和病灶点定位的功能。它模拟了医生在高分辨率图像上选择高度可疑的区域进行检查的放大过程，并通过全局图像和局部patches来预测最终的等级。

放大网络包括三个模块，如图1所示：用于DR分级的主网络（M-Net），用于生成注意力值的注意力网络（A-Net）和裁剪网络（C-Net），它将高注意力值的高分辨率patches作为输入，以修正M-Net的预测。预测结果分为五个种类：0-无病；1-轻度；2-中度；3-重度；4-增殖。

图1 放大网络结构图

2.1 主网络（M-Net）

M-Net采用的是Inception-ResNet模型，模型结构参考Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning论文第7页。中间特征图M是在5 x inception_resnet_c层后提取得到的， $M\in R^{1024\times14\times14}$ ，将M-Net分成了两个部分，后面紧跟一个全连接层，映射到一个概率向量 $y_M\in R^5$ ，表示该图像属于每个患病等级的概率。M会进一步作为A-Net的输入。

由于Kaggle数据集提供了一个病人的左右眼图像，本文也就充分利用两只眼睛之间的关系。统计表明，超过95%的同一个病人的两只眼睛的等级区别不超过1，因此本文将M-Net中两只眼睛的特征连接在一起，以端到端的方式训练网络。

2.2 注意力网络（A-Net）

A-Net将特征图M作为输入，包括两个分支，第一个分支A-Net Part I 是一个1*1卷积核的卷积层，可以看作是应用在每个像素上的线性分类器，生成得分图（score maps） $S\in R^{5\times14\times14}$ ，对应五个患病等级。第二个分支A-Net Part II 用三个卷积层生成注意力门图（attention gate maps），如图2所示。特别地，它为每个患病等级生成了独立的注意力门图。每个注意力图（attention map）由空间softmax操作得到。直观地，空间softmax迫使注意力值相互竞争，并且集中在最有信息的区域。因此将注意力图 $A\in R^{5\times14\times14}$ 作为门控，A-Net的输出为：

$G^l=S^l\otimes A^l$

其中， $G^l$ 是A-Net的门控特征（gated feature：被门控制住了的特征 $\odot \forall \odot$ ）， $S^l$ 是得分图， $A^l$ 是注意力图，对应第 $l$ 个类别， $\otimes$ 表示逐元素相乘。现在就可以计算最后的得分向量 $y_A^l=\sum_{i,j}G^l_{i,j}$ .

图2 A-Net part II 结构图

2.3 裁剪网络（C-Net）

通过放大可疑的注意力区域来进一步提高准确率，给定门控注意力图（gated attention maps：被注意力门控制住了的图 $\odot \forall \odot$ ） $G\in R^{5\times14\times14}$ ，先把它resize成输入图像的大小，然后用贪心算法来采样区域，每次迭代中，记录G中最大反应的位置，然后遮罩掉它周围s*s的区域，防止这个区域再次被选中，重复这个过程，直到N个坐标（实验中N=4）都被记录（病入膏肓的时候），或者最大的注意力反应已经达到（病灶点还很少的时候），这一过程如图3所示：

图3 从左到右：原图，1-4级门控注意力图，图像选择区域。

得到记录的位置后，裁剪原高分辨率图中相关patches，输入到C-Net中。C-Net的结构和inception-v3模型相似，参考Rethinking the Inception Architecture for Computer Vision。有所不同的是，它在global_pool层中结合了所有patches的特征 $\hat{d}_C$ 。由于一些patches没有病变（可能是因为需要四个框，但等级低的没那么多病灶点），所以在特征 $\hat{d}_C$ 上用element-wise取最大值来提取最有信息的特征，然后把这个特征和从M-Net出来的 $d_M$ 连接起来分类。

3 注意力定位评估与理解

3.1 注意力定位评估

为了验证高反应区域包含了能够解释患病等级的线索，有请一位专业医生来标注182张EyePACS数据库中的图像，画边框来紧密覆盖病灶点，共标注了306个病灶点。（应该是不分病灶点种类的）

计算ground truth和采样框之间的IoM（intersection over minimum），采样框就是C-Net里用的四个框。如果IoM高于阈值，则采样框正确。本文画了两条召回率曲线，分别是对人和对框VS阈值。对人召回率表示只要一个人标注的ground truth 框被采样框检索到，就认为此人正确。因此，这比对框召回率要高。注意，我们在IoM阈值为0.3时达到了0.76（对框）和0.83（对人）的召回率。这表明A-Net仅仅用图像级监督就可以准确定位病灶点。我们认为，增大注意力图的分辨率（14*14）可以进一步提高定位准确率。

3.2 注意力视觉理解

为了更好地理解网络，本文提出了基于聚类的方法来可视化门控注意力图（gated attention maps）中的最高反应位置。我们用AP聚类算法，将特征图M上相同位置的特征分割成簇，不需要预定的簇数量。我们可以恢复到它们相关图像区域作为C-Net输入，并将一些区域可视化，如图4所示。有些簇包含了非常有意义的病灶点比如微血管瘤啥的。这种操作可能会帮助医生找出一些新的病灶点。

图4 自动检测可疑区域的例子

4 定量评估

4.1 数据集与评估准则

EyePACS（也就是kaggle数据集）：训练/验证/测试数量分别为35k/11k/43k，在不同的场景和设备下拍摄。提供每位患者的左右眼图像，以及医生给出的0-4级。采用相同的官方评价指标：二次加权kappa。

Messidor：公共数据集，包含1200张图像，每张图像提供两个等级，视网膜等级和XXX等级，这里只用视网膜等级。

4.2 实验细节

预处理：

1. 裁剪图像去掉没用的黑边；

2. 数据增强：随机旋转（0/90/180/270），随机翻转；

训练过程：

1. 先训练M-Net，基于Image-Net预训练；

2. 再训练A-Net，固定M-Net的参数；

3. 最后训练C-Net（M-Net和A-Net也同时训练）得到最终的放大网络。

4. 采用mini-batch SGD，初始学习率 $10^{-5}$ ，步长20k，momentum=0.9，用caffe library训练。

4.3 EyePACS数据集实验结果

实验完整地评估了放大网络的每个部分：M-Net在val/test上分别达到0.832/0.825，加入A-Net之后仅增加了0.5%，这也不奇怪，因为A-Net里面没有加入什么附加信息。

此外，我们用A-Net得到的门控注意力图（gated attention maps）来提取可疑区域并训练C-Net。可以在492*492的图像上观察到，病灶点区域通常小于200*200，因此，我们设置区域大小s=200，裁剪区域N=4. 我们从1230*1230的高分辨率图像中裁剪384*384的patches作为C-Net的输入，在放大网络训练过程中，一个mini-batch包含了图像的全图和4个高分辨率patches，这时候GPU就差不多爆满了，所以网络在每12个mini-batches之后更新参数。最终放大网络达到了0.857/0.849，三个模型集成结果达到0.865/0.854，超过了kaggle竞赛第一名min-pool（0.86/0.849）.

EyePACS实验结果

5 结论

本文提出了一个新的框架：放大网络，在两个数据集上达到了state-of-the-art的表现。仅靠图像级的监督训练，放大网络可以生成注意力图，突出可疑区域。门控注意力图的定位能力我们也验证过了，很可靠。进一步的实验显示，门控注意力的高反应区域与潜在病灶点有关，因此可以用来进一步促进分类效果。

最后编辑于：2019.02.18 10:39:51

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,312评论 5赞 473
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,578评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,337评论 0赞 333
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,134评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,161评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,303评论 1赞 280
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,761评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,421评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,609评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,450评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,504评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,194评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,760评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,836评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,066评论 1赞 257
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,612评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,178评论 2赞 341