LLM2D

摘要

大规模视觉语言预训练 (VLP) 模型（例如 CLIP）以其多功能性而闻名，因为它们可以在零样本设置下应用于各种应用。然而，当这些模型用于特定领域时，由于领域差异或这些领域在训练数据中的代表性不足，其性能往往会下降。虽然在具有人工标注标签的自定义数据集上微调 VLP 模型可以解决此问题，但即使是标注一个小规模数据集（例如 100k 个样本）也可能是一项昂贵的任务，如果任务很复杂，往往需要专家标注员。为了应对这些挑战，我们提出了 LatteCLIP，这是一种无监督方法，用于在自定义领域中使用已知类名对 CLIP 模型进行分类微调，而无需依赖人工标注。我们的方法利用大型多模态模型 (LMM) 为单个图像和图像组生成表达性的文本描述。这些提供了额外的上下文信息，以指导自定义领域的微调过程。由于 LMM 生成的描述容易出现幻觉或遗漏细节，我们引入了一种新策略来仅提取有用信息并稳定训练。具体来说，我们从嘈杂的生成文本和双重伪标签中学习丰富的每个类原型表示。我们在 10 个特定领域数据集上的实验表明，LatteCLIP 在 top-1 准确率方面优于预训练的零样本方法，平均提高了 +4.74 个点，并且优于其他最先进的无监督方法，提高了 +3.45 个点。