LLM2D

摘要

个性化检索和分割旨在根据输入图像和参考实例的简短描述，在数据集中定位特定实例。虽然监督方法有效，但它们需要大量的标记数据进行训练。最近，自监督基础模型被引入这些任务，显示出与监督方法相当的结果。然而，这些模型存在一个明显的缺陷：当同一个类别中的其他实例出现时，它们难以定位所需的实例。在本文中，我们探索了文本到图像扩散模型用于这些任务。具体来说，我们提出了一种名为 PDM 的新方法，用于个性化特征扩散匹配，该方法利用预训练的文本到图像模型的中间特征来实现个性化任务，无需任何额外的训练。PDM 在流行的检索和分割基准测试中表现出优异的性能，甚至超过了监督方法。我们还指出了当前实例和分割数据集中的显著缺陷，并为这些任务提出了新的基准测试。