LLM2D

摘要

利用预训练模型结合定制提示进行上下文学习已被证明在自然语言处理任务中非常有效。在此成功的基础上，最近的研究将类似的方法应用于“单次”框架内的分割任何模型 (SAM)，其中只使用单个参考图像及其标签。然而，这些方法在医学领域面临局限性，这主要是由于 SAM 对于视觉提示的基本要求以及过度依赖像素相似性来生成它们。这种依赖性可能导致 (1) 提示生成不准确和 (2) 点提示聚类，从而导致次优结果。为了解决这些挑战，我们引入了 **Med-PerSAM**，这是一种针对医学领域的新颖且简单的单次框架。Med-PerSAM 只使用视觉提示工程，并且由于我们新颖的自动化提示生成过程，无需额外训练预训练的 SAM 或人工干预。通过将我们轻量级的基于翘曲的提示微调模型与 SAM 集成，我们能够提取和迭代细化视觉提示，从而增强预训练 SAM 的性能。这项进步在医学领域尤其意义重大，因为在医学领域，为缺乏医学专业知识的个人创建视觉提示带来了显著挑战。我们的模型在各种二维医学影像数据集上优于各种基础模型和以前的基于 SAM 的方法。