LLM2D

摘要

arXiv:2504.03108v1 类型：交叉摘要：背景：卷积神经网络（CNN）和视觉变换器（ViT）是医学图像分割的主要技术。然而，CNN局限于局部上下文信息，而ViT的二次复杂性导致了显著的计算成本。同时，在皮肤病变分割中，区分不同严重程度的病灶边界也是一个挑战。目的：本研究旨在在计算成本和长距离依赖建模之间优化平衡，并实现对不同严重程度病变的优秀泛化性能。方法：我们提出了一种轻量级U形状网络，利用融合机制的视觉快速变换器（VFFM-UNet）。我们继承了快速变换器的加性注意力机制的优势，结合逐元素乘积和矩阵乘积进行综合特征提取，并减少通道以节省计算成本。为了准确识别不同严重程度的病变边界，我们设计了包含多粒度融合和通道融合的融合机制，能够在粒度和通道级别处理特征图以获取不同上下文信息。结果：在ISIC2017、ISIC2018和PH2数据集上的综合实验表明，VFFM-UNet在参数数量、计算复杂性和分割性能方面优于现有最先进的模型。简而言之，与MISSFormer相比，我们的模型在减少参数和计算成本方面分别达到了101倍和15倍的优越分割性能。结论：定量和定性的分析表明，VFFM-UNet在参数数量、计算复杂性和分割性能方面达到了与现有最先进的模型相比的理想平衡，从而确立了一个新的基准。