2023年12月1日(星期五)18:01:34,Mamba横空出世,为深度学习领域带来了新的可能。经过半年的发展,其应用场景已经从语言、音频等一维数据处理扩展到了图片与视频等二维或三维数据处理。基于深度学习的医学图像分割能够帮助医生快速准确进行疾病诊断,具有重要的临床意义,随着基于Mamba的医学图像分割模型相继出现,医学图像分割领域已经形成了CNN、Transformer、Mamba三足鼎立之势,三者互为补充,共同推进医学图像分割的快速发展。
CNN最先被应用到医学图像分割,但其缺少长距离信息交互能力。Transformer通过自注意力机制确保模型具有长距离信息交互能力,但代价是二次时间复杂度。Mamba提出选择性状态空间模型(SSM),在线性时间复杂度情况下实现了长距离信息交互。
与Transformer类似,Mamba最先提出并没有考虑图像的二维空间特征提取。因此,将Mamba应用到医学图像分割任务自然需要针对这一问题提出解决方案,下面对学界已有的尝试进行归纳总结。
U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation[J]. arXiv, 2024.
U-Mamba是基于Mamba的第一个专门针对医学图像分割的研究。一作为南京航空航天大学-马骏,通讯作者为多伦多大学-王波。该模型直接将空间维度flatten,模型主体架构继承自nnU-Net。
创新点:提出hybrid CNN-SSM block,提出self-configuring mechanism自适应多个数据集不需人工干预。结果比CNN和Transformer方法都好。
数据集:the 3D abdominal organ segmentation in CT and MR images, instrument segmentation in endoscopy images, and cell segmentation in microscopy images
-
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model
Vision Mamba通讯作者为华中科技大学-王兴刚。同样将二维图像flatten。但采用了位置编码。
创新点:vision backbone with bidirectional Mamba blocks (Vim)。作者称Vim是第一个针对密集预测任务的纯SSM-based模型。所谓双向Mamba其实就是正序和反序作为Mamba输入。
-
VMamba: Visual State Space Model
VMamba的作者包括:鹏程实验室-王耀伟 华为-谢凌曦 中国科学院大学-叶齐祥。
文章提出的VMamba是一个vision backbone,可以用于分割分类等各
种任务(没有应用unet结构)。提出Visual State-Space (VSS) blocks with the 2D Selective Scan (SS2D) module,并且发展了一个VMamba结构家族。其提出的VSS block启发了后续的若干工作,一部分直接应用该模块构建新模块,一部分在该模块基础上进行改进,例如SS2D的扫描方法。
VM-UNet: Vision Mamba UNet for Medical Image Segmentation
作者为Suncheng Xiang,上海交大助理教授
创新点:基于U-Net构建VM-UNet。应用VSS块作为基础块,但VSS块和其中核心操作SS2D都是直接从VMamaba拿过来。
SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation
作者单位为香港科技大学,本文是第一篇基于Mamba的针对3D医学图
像的分割模型。
创新点:为了在高维医学影像上用mamba,提出tri-orientated Mamba (ToM) module (TSMamba);为了增强ToM前面的空间维度特征,提出gated spatial convolution (GSC) module;提出一个结直肠癌3D分割数据集CRC-500, 其中包括500个3D CT scans with expert annotations。
这里进行说明:Forward Features Interaction就是从最上面层开始,每次按顺序扫描一层后进入下一层;Reverse Feature Interaction就是从最下面一层开始,每次按顺序扫描一层后进入上一层;Inter-slice Feature Interaction就是每一层同一个位置(i,j)自上而下取,然后再自上而下取下一个位置(i,j+1)的所有层。
-
Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining
通讯作者为香港大学 Hong-Yu Zhou。现有Mamba分割模型没有利用
预训练模型,原因是基于Mamba的分割模型没有适配已有的预训练模型,这可以看做一种资源浪费。
创新点:针对现有Mamba分割模型没有利用预训练模型,本文提出
Swin-UMamba用于2D医学图像分割,利用ImageNet-based pretraining。本模型采用VMamba-Tiny结构,模型在ImageNet预训练。
本文模型也将VMamba中的VSS直接拿过来,并且其模型结构很像VM-UNet。区别在于Swin-UMamba把输入图像直接skip了,并且只在encoder用VSS,在decoder没有用。
暂时介绍这么多。从上面的发展脉络可以看出,Mamba分割模型针对图像扫描问题的探索从完全展平到SS2D,再到三维扫描方案。探索方向有通用的vision backbone,也有专门应用于医学影像分割的模型,基础架构也从U-Net到nnU-Net,并在主体结构中间增加新模块。可以观察到VMamba提出的VSS模块与SS2D模块已经被应用到其他模型中,说明其有效性和鲁棒性,未来Mamba的探索还有很大空间,但思维不能局限于Mamba+UNet,就像Mamba最开始的来源是物理上的自动控制理论,需要发散的思维和准确的科研直觉,还有一点灵光乍现。
本文使用 文章同步助手 同步