LLM2D

摘要

近年来，在海量数据集上训练的，能够适应多种任务的基础模型引起了计算机视觉领域的广泛关注，并得到了积极探索。其中，Segment Anything Model (SAM) 在图像分割任务中取得了显著进展，其通过基于提示的物体掩码生成实现了非凡的泛化性和灵活性。然而，尽管 SAM 实力强大，但在应用于实例分割（即分割特定物体或独特环境中的物体，例如对训练数据中不存在的物体进行特定任务的适应）时，它仍然面临着两个关键限制：1）输入提示的内在歧义性；2）为了实现最佳分割，需要进行大量的额外训练。为了解决这些挑战，我们提出了一种通过针对 SAM 的提示学习来进行任务特定适应（即定制）的分割基础模型。我们的方法包括一个提示学习模块 (PLM)，该模块调整嵌入空间中的输入提示，使其更好地与目标任务的特殊性相匹配，从而实现更有效的训练。此外，我们还引入了点匹配模块 (PMM) 来增强特征表示，通过确保与地面真实边界进行详细对齐来实现更精细的分割。在各种定制分割场景上的实验结果证明了所提出方法的有效性。