LLM2D

摘要

arXiv:2503.18227v2 宣告类型: replace-cross 摘要：段落一切模型（SAM）展示了强大的零样本能力；然而，在应用于医学图像分割时，它的准确性和鲁棒性显著下降。现有方法通过模态融合来解决这一问题，将文本和图像信息结合起来，提供更详细的前提知识。在这项研究中，我们argue（指出）文本的精细程度和领域差距影响了前提知识的准确性。此外，图像中的高层抽象语义和像素级边界细节之间的差距可能会在融合过程中引入噪声。为了解决这个问题，我们提出了前指导SAM（PG-SAM），它采用细粒度模态先验对齐器，利用医学领域的专业知识来更好地进行模态对齐。我们方法的核心在于，利用医学LLM中的细粒度文本高效解决领域差距问题，同时在模态对齐后提高前提知识的质量，从而确保更精确的分割。此外，我们的解码器通过多级特征融合和迭代掩码优化操作增强了模型的表达能力，支持无提示学习。我们还提出了一种集成管线，有效地为SAM提供高质量的语义信息。在Synapse数据集上的广泛实验表明，提出的PG-SAM达到了最先进的性能。我们的匿名代码在https://github.com/logan-0623/PG-SAM上发布。