摘要
个性化检索和分割旨在根据输入图像和参考实例的简短描述,在数据集中定位特定实例。虽然监督方法有效,但它们需要大量的标记数据进行训练。最近,自监督基础模型被引入这些任务,显示出与监督方法相当的结果。然而,这些模型存在一个明显的缺陷:当同一个类别中的其他实例出现时,它们难以定位所需的实例。在本文中,我们探索了文本到图像扩散模型用于这些任务。具体来说,我们提出了一种名为 PDM 的新方法,用于个性化特征扩散匹配,该方法利用预训练的文本到图像模型的中间特征来实现个性化任务,无需任何额外的训练。PDM 在流行的检索和分割基准测试中表现出优异的性能,甚至超过了监督方法。我们还指出了当前实例和分割数据集中的显著缺陷,并为这些任务提出了新的基准测试。