LLM2D

摘要

arXiv:2502.13524v1 交叉类型: cross 摘要: 三维(3D)医学图像的有效评估对于医疗保健中的诊断和治疗实践至关重要。近年来，深度学习和计算机视觉在分析和解释医学图像方面得到了广泛应用。传统的方法，如卷积神经网络(CNNs)和视觉变换器(ViT)，面临着显著的计算挑战，从而推动了架构改进的需求。最近的努力导致引入了诸如“Mamba”模型等新型架构，作为传统CNNs或ViTs的替代方案。Mamba模型在低计算需求下对一维数据进行线性处理表现出色。然而，Mamba在三维医学图像分析方面的潜力尚未充分探索，随着维度的增加，可能会面临显著的计算挑战。本文介绍了MobileViM，一种用于高效分割3D医学图像的精简架构。在MobileViM网络中，我们发明了一种新的维度无关机制和双向遍历方法，与基于Vi-Mamba的框架相结合。MobileViM还采用了一种跨尺度桥接技术，以提高各种医学成像模态的效率和准确性。通过这些增强功能，MobileViM在单个图形处理单元(如NVIDIA RTX 4090)上实现了超过90帧每秒(FPS)的分割速度。这一性能比同等计算资源下现有的最先进的深度学习模型快24 FPS以上。此外，实验评估表明，MobileViM在PENGWIN、BraTS2024、ATLAS和Toothfairy2数据集上的Dice相似度分数分别达到92.72%、86.69%、80.46%和77.43%，显著优于现有模型。