LLM2D

摘要

arXiv:2503.18227v3 通告类型: 替换-交叉摘要: Segment Anything Model (SAM) 展现了强大的零样本能力，但在应用于医学图像分割时，其准确性和鲁棒性显著下降。现有方法通过模态融合来解决这一问题，将文本和图像信息结合起来，提供更多详细的先验信息。在本研究中，我们认为文本的精细度和领域差距会影响先验信息的准确性。此外，图像中的高层抽象语义与像素级边界细节之间的差异可导致融合过程中引入噪声。为解决这一问题，我们提出了 Prior-Guided SAM (PG-SAM)，该方法使用细粒度的专业医学知识来实现更好的模态对齐。我们方法的核心在于，通过细粒度医学LLM中的文本有效地解决领域差距问题，同时在模态对齐后还增强了先验信息的质量，确保更准确的分割。此外，我们的解码器通过多层特征融合和迭代掩码优化操作来增强模型的表达能力，支持未提示学习。我们还提出了一种统一的管道，可以有效地为SAM提供高质量的语义信息。在Synapse数据集上的广泛实验表明，提出的PG-SAM达到了最先进的性能。我们的代码可以在 https://github.com/logan-0623/PG-SAM 获取。