摘要
少样本识别 (FSR) 旨在仅使用下游任务中每个概念的少量标记示例来训练分类模型,其中数据标注成本可能高得令人望而却步。我们开发了利用预训练视觉语言模型 (VLM) 来解决 FSR 的方法。我们特别探索了检索增强学习 (RAL),它从 VLM 的预训练集中检索数据以学习更好的模型来服务下游任务。RAL 已在零样本识别中得到广泛研究,但在 FSR 中仍未得到充分探索。虽然将 RAL 应用于 FSR 看起来很简单,但我们观察到一些有趣的新挑战和机遇。首先,有点令人惊讶的是,在一个大型检索数据集上微调 VLM 的性能不如最先进的零样本方法。这是由于检索数据的分布不平衡及其与下游任务中少量样本的领域差异造成的。其次,更令人惊讶的是,我们发现仅在少量样本上微调 VLM 就大大优于之前的 FSR 方法,并且在检索数据和少量样本数据的混合数据上进行微调可以产生更好的结果。第三,为了减轻数据分布不平衡和领域差异问题,我们提出了分阶段检索增强微调 (SWAT) 方法,该方法包括在第一阶段对混合数据进行端到端微调,并在第二阶段对少量样本数据重新训练分类器。在九个流行基准上的大量实验表明,SWAT 的准确率比以前的方法提高了 >6%。