LLM2D
基于查询token的双混合注意力框架:多级特征分布在医学影像分割中的应用
QTSeg: A Query Token-Based Dual-Mix Attention Framework with Multi-Level Feature Distribution for Medical Image Segmentation
作者: Phuong-Nam Tran, Nhat Truong Pham, Duc Ngoc Minh Dang, Eui-Nam Huh, Choong Seon Hong
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2412.17241v2

摘要

arXiv:2412.17241v2 宣告类型: 替换-交叉 摘要:医学图像分割在协助医疗专业人员进行准确诊断以及实现自动化诊断过程中发挥着关键作用。传统的卷积神经网络(CNN)通常难以捕捉长范围依赖关系,而基于变换器的架构虽然有效,但带来了计算复杂度的增加。最近的努力集中在结合CNN和变换器以平衡性能和效率,但现有方法仍面临着在保持低计算成本的同时实现高分割准确性的挑战。此外,许多方法未能充分利用CNN编码器获取局部空间信息的能力,主要集中在缓解长范围依赖关系问题上。为了解决这些局限性,我们提出了一种名为QTSeg的新架构,该架构有效整合了局部和全局信息。QTSeg特征包括一种用于提高分割性能的双混注意解码器,其通过以下方式增强分割性能:(1)交叉注意机制以改进特征对齐,(2)空间注意模块以捕捉长范围依赖关系,以及(3)通道注意模块以学习通道关系。此外,我们还引入了多级特征分布模块,该模块适应性地平衡编码器和解码器之间的特征传播,进一步提升了性能。在五个公开可用的数据集上的广泛实验,涵盖了包括病变、息肉、乳腺癌、细胞和视网膜血管分割在内的多种分割任务,证明了QTSeg在多个评估指标上优于最先进的方法,同时保持较低的计算成本。我们的实现可以在以下链接找到:https://github.com/tpnam0901/QTSeg (v1.0.0)