摘要
arXiv:2502.13524v1 交叉类型: cross
摘要: 三维(3D)医学图像的有效评估对于医疗保健中的诊断和治疗实践至关重要。近年来,深度学习和计算机视觉在分析和解释医学图像方面得到了广泛应用。传统的方法,如卷积神经网络(CNNs)和视觉变换器(ViT),面临着显著的计算挑战,从而推动了架构改进的需求。最近的努力导致引入了诸如“Mamba”模型等新型架构,作为传统CNNs或ViTs的替代方案。Mamba模型在低计算需求下对一维数据进行线性处理表现出色。然而,Mamba在三维医学图像分析方面的潜力尚未充分探索,随着维度的增加,可能会面临显著的计算挑战。本文介绍了MobileViM,一种用于高效分割3D医学图像的精简架构。在MobileViM网络中,我们发明了一种新的维度无关机制和双向遍历方法,与基于Vi-Mamba的框架相结合。MobileViM还采用了一种跨尺度桥接技术,以提高各种医学成像模态的效率和准确性。通过这些增强功能,MobileViM在单个图形处理单元(如NVIDIA RTX 4090)上实现了超过90帧每秒(FPS)的分割速度。这一性能比同等计算资源下现有的最先进的深度学习模型快24 FPS以上。此外,实验评估表明,MobileViM在PENGWIN、BraTS2024、ATLAS和Toothfairy2数据集上的Dice相似度分数分别达到92.72%、86.69%、80.46%和77.43%,显著优于现有模型。