摘要
大规模视觉语言预训练 (VLP) 模型(例如 CLIP)以其多功能性而闻名,因为它们可以在零样本设置下应用于各种应用。然而,当这些模型用于特定领域时,由于领域差异或这些领域在训练数据中的代表性不足,其性能往往会下降。虽然在具有人工标注标签的自定义数据集上微调 VLP 模型可以解决此问题,但即使是标注一个小规模数据集(例如 100k 个样本)也可能是一项昂贵的任务,如果任务很复杂,往往需要专家标注员。为了应对这些挑战,我们提出了 LatteCLIP,这是一种无监督方法,用于在自定义领域中使用已知类名对 CLIP 模型进行分类微调,而无需依赖人工标注。我们的方法利用大型多模态模型 (LMM) 为单个图像和图像组生成表达性的文本描述。这些提供了额外的上下文信息,以指导自定义领域的微调过程。由于 LMM 生成的描述容易出现幻觉或遗漏细节,我们引入了一种新策略来仅提取有用信息并稳定训练。具体来说,我们从嘈杂的生成文本和双重伪标签中学习丰富的每个类原型表示。我们在 10 个特定领域数据集上的实验表明,LatteCLIP 在 top-1 准确率方面优于预训练的零样本方法,平均提高了 +4.74 个点,并且优于其他最先进的无监督方法,提高了 +3.45 个点。