LLM2D

摘要

arXiv:2406.11148v3 宣告类型: replace-cross 摘要: 少样本识别（FSR）的目标是在下游任务中仅使用少量每个概念的标记示例来训练分类模型，而数据注释成本可能非常高。我们通过利用预训练的视觉-语言模型（VLM）来解决FSR问题。特别是探索了检索增强学习（RAL），该方法检索开放数据，例如VLM的预训练数据集，以更好地服务于下游任务。RAL已经在零样本识别中进行了研究，但在FSR中仍然未被充分利用。尽管将RAL应用于FSR似乎很简单，但我们观察到了有趣且新颖的挑战和机遇。首先，出人意料的是，对大量检索数据进行VLM的微调表现不如最先进的零样本方法。这是由于检索数据的分布不平衡以及其与下游任务中少量样本的领域差距。其次，更令人惊讶的是，我们发现仅在少量样本上对VLM进行微调显著优于之前的FSR方法，且在检索数据和少量样本数据的混合上进行微调效果更佳。第三，为了减轻分布不平衡和领域差距的问题，我们提出了阶段检索增强微调（SWAT），该方法首先对混合数据进行端到端的微调，然后再训练分类器以适应少量样本数据。在九个流行的基准测试上的广泛 experiments 表明，SWAT 的性能显著优于之前的任何方法，准确率提高了超过 6%。