这篇主要介绍Kaggle的第二届年度数据科学竞赛:Transforming How We Diagnose Heart Disease。关于Kaggle平台本身的相关内容,可以参考:[Kaggle] 数据建模分析与竞赛平台介绍。
Kaggle除了作为平台来帮助组织者们举办数据分析比赛之外,其本身从2014年开始每年也会和Booz Allen Hamilton(一家著名的咨询公司)举办一次年度的数据分析竞赛Annual Data Science Bowl,从名字上来看就有点类似Super Bowl的意味,所以说也相当于是数据科学的一大年度盛事吧。每次比赛从当年12月开始一直持续到第二年的3月份,总共三个月的时间。
第一届Assessing Ocean Health at a Massive Speed & Scale,要求搭建一个图像识别系统来处理由水下图像传感器收集的微观高像素照片,以分析海水中浮游生物的种类和数量;第二届Transforming How We Diagnose Heart Disease,要求搭建一个系统,通过处理超过1000个患者的心脏核磁共振成像(MRI)来估计患者的舒张压和收缩压,以此来帮助诊断心脏病。
这里介绍的是第二届比赛的相关内容。
Task Description
人体的一次心跳循环包括三个过程:收缩Systole—>舒张Diastole—>收缩Systole。通过测量一次心跳中收缩末期(End-Systolic Volumes)和舒张末期容积(End-Diastole Volumes),也就是一次心跳循环中刚开始的心室容积和中间的心室容积,可以判断出心脏的功能是否良好,这是进一步诊断是否患有心脏病的重要指标。
除此之外,心室射血分数 Ejection Fraction (EF)是用来表示每次心跳从左心室中射出的血液比例的指标。其计算公式为
EF=每次心跳从左心室中射出的血液/舒张时左心室中所有的血液量
也就是说,
![][0]
[0]: http://latex.codecogs.com/svg.latex?EF=\frac{V_D-V_S}{V_D}
以上三个指标,可以共同作为心脏病的预测依据。最常用且有效的观察这几个指标的方法就是通过心脏核磁共振成像(MRI)。
然而,当前通过人工观察MRI的方法来测量EF等指标的问题在于效率过于低下。由于采用人工的方式进行分析,即便是一个非常有经验的心脏专家也可能花掉20分钟来分析MRI扫描图像以确定一位患者的EF指标。如果采用机器自动识别的方式来进行测量,不仅可以提早的检测出心脏状况、提高效率,同时还可以大大节省心脏专家花费在这些事务上的时间、而更好的投入到其他更需要他们的环节当中。
第二届Annual Data Science Bowl要求的就是设计算法并搭建系统,通过处理超过1000个患者的心脏核磁共振成像(MRI)来估计患者的舒张压和收缩压,以此来帮助诊断心脏病。
Evaluation Metrics
NDSB2使用Continuous Ranked Probability Score (CRPS)作为评价标准,公式为:
![][1]
[1]: http://latex.codecogs.com/svg.latex?C=\frac{1}{600N}\sum_{m=1}{N}\sum_{n=0}{599}(P({y}\le{n})-H(n-V_m))^2
其中P是预测概率分布,由参赛者分别预测每条记录的收缩末期容积和舒张末期容积的(累计)概率分布得到;N是测试记录数的两倍(收缩和舒张两种情况分别预测);V是实际的容量(以mL为单位);H(x)是阶跃函数(x >= 0时H(x)为1,否则为0)。
图上可以比较直观的看出预测值和实际值的误差计算方式,虽然NDSB2的CRPS采用的是离散数据点、计算的是二者差值的平方,但是图中绿色部分的面积可以近似的看成误差函数所要计算的值(假设使用的是连续版本的CRPS,即用求积分代替求和)。可以看到当预测分布曲线越贴近真实值时,绿色部分的面积就越小。
Datasets
NDSB2提供的数据集可以在这里下载(不过下载之前要先注册账号,而且下载速度即使开了VPN也非常缓慢。。)。
数据集包括数百个心脏核磁共振DICOM格式的图像。每条数据实际上类似于一小段大约30帧左右的视频,记录了心跳循环的过程。为了增加数据的真实性,每一帧心脏图像都是从不同的心跳循环中获取的(Each slice is acquired on a separate breath hold. This is important since the registration from slice to slice is expected to be imperfect.)。实际上参赛者的任务就是要在给定一条新记录的情况下,预测其在收缩和舒张两个阶段末期左心房的大小。
问题的主要困难体现在数据本身上。由于每条记录可能来自不同年龄的个体、不同医院记录的图像,许多记录的心脏功能甚至本身就有异常,因此数据在解剖层面、图像质量、获取来源的巨大差异使得对数据集的分析非常困难。参赛者的主要目标,就是要设计出一种尽量降低多种差异带来的影响的算法。
MXnet Sample Solutions
之前既然是从MXnet跨界过来看Kaggle的,那MXnet的方法当然是要说一下。
MXnet把NDSB2划为图像分类的问题,其解决思路也相当简单。基本思想是把每条记录的n帧提取出来,通过压缩裁切使得每一帧转变为64*64的图像;然后将这n张裁切过的图像进行连结,得到n张64*64的图像,直接输入到一个类似于经典的CNN-LeNet网络进行训练(在这里他们发现对于大部分记录来说都是由30帧图像组成,因此n取值为30);输出设定为600维的类别,使用逻辑回归来估计每一维的值(每一维数值自然落在0~1之间),最后将这600个值按照递增序输出即得到了要求的概率分布。
这种训练方法得到的结果可以在验证集上的CPRS达到0.039222,在比赛的初始阶段(2015年的12月22日)足以进入前十。
在其代码实现中还有一些细节的考虑,比如说将图像压缩裁切完之后,不是直接放在MXnet的numpy中,而是将其以csv格式写入硬盘里,等到训练时再依次以MXnet的CSVIter读出进行训练,这样可以避免由于数据集过大而占用大量内存;同时为了提高训练效果,代码实现中并不是直接地将30*64*64的图像输入网络,而是将相邻帧之间的差值作为输入;在其训练网络的实现中也并不是完全按照LeNet的结构,比如使用了relu函数作为激活函数、采用了Flatten和Dropout技术等等,在这边就不细说了,具体的细节可以参看其代码。
不过值得一提的是,实现以上功能在MXnet框架下十分容易,主要的问题都集中在如何设计网络这个环节,网络实现这一步是没有多少工作量的,如下所示只有短短的十几行而已。
def get_lenet():
""" A lenet style net, takes difference of each frame as input.
"""
source = mx.sym.Variable("data")
source = (source - 128) * (1.0/128)
frames = mx.sym.SliceChannel(source, num_outputs=30)
diffs = [frames[i+1] - frames[i] for i in range(29)]
source = mx.sym.Concat(*diffs)
net = mx.sym.Convolution(source, kernel=(5, 5), num_filter=40)
net = mx.sym.BatchNorm(net, fix_gamma=True)
net = mx.sym.Activation(net, act_type="relu")
net = mx.sym.Pooling(net, pool_type="max", kernel=(2,2), stride=(2,2))
net = mx.sym.Convolution(net, kernel=(3, 3), num_filter=40)
net = mx.sym.BatchNorm(net, fix_gamma=True)
net = mx.sym.Activation(net, act_type="relu")
net = mx.sym.Pooling(net, pool_type="max", kernel=(2,2), stride=(2,2))
# first fullc
flatten = mx.symbol.Flatten(net)
flatten = mx.symbol.Dropout(flatten)
fc1 = mx.symbol.FullyConnected(data=flatten, num_hidden=600)
# Name the final layer as softmax so it auto matches the naming of data iterator
# Otherwise we can also change the provide_data in the data iter
return mx.symbol.LogisticRegressionOutput(data=fc1, name='softmax')
Other Solutions
Kaggle自己贴出了两种解决方案,一种是基于傅里叶分析的方法,另外一种是在Caffe平台上实现的基于全卷积神经网络的方法。我只稍微看了一下第二种,它在使用NDSB2的数据集进行训练之前先找了一个Sunnybrook dataset来进行训练,相当于增大了数据集,效果应该是提升了不少。