摘要
arXiv:2503.23534v1 表示类型: cross
摘要:医学图像分割通常仅依赖于视觉数据,而忽视了临床医生在诊断中使用的丰富文本信息。视觉语言模型试图弥合这一差距,但现有的方法往往将视觉和文本特征独立处理,导致跨模态对齐较弱。简单的融合技术由于空间视觉特征和序列文本嵌入之间的固有差异而失败。此外,医学术语与通用语言不同,限制了现成文本编码器的有效性,进一步阻碍了视觉语言对齐。我们提出了BiPVL-Seg,这是一种端到端框架,通过架构和训练创新将视觉语言融合和嵌入对齐相结合,其中两个组成部分相互强化以提高医学图像分割的性能。BiPVL-Seg引入了架构中的双向分阶段融合,这促进了视觉编码器和文本编码器之间的阶段间信息交换。此外,它还包含了全局-局部对比对齐,这是一种训练目标,通过在类别和概念层面对文本和视觉嵌入进行对齐来增强文本编码器的理解。在CT和MR模态下多种医学成像基准上的广泛实验结果表明,当与最先进的复杂多类分割方法进行比较时,BiPVL-Seg表现出更优异的性能。源代码可在该GitHub仓库中获得。