摘要
先前研究表明,演示可以显著帮助大型语言模型 (LLM) 在给定任务上取得更好的表现。然而,这种所谓的“上下文学习”(ICL) 能力对演示的上下文非常敏感,通常需要数十个演示。在这项工作中,我们研究了是否可以在保持竞争性能的同时减少演示次数。我们提出了 SeCoKD,这是一个自知识蒸馏 (KD) 训练框架,它将学生模型与一个经过大量提示的变体对齐,从而提高单一演示的利用率。我们在三个 LLM 和六个基准上对 SeCoKD 进行了实验,主要关注推理任务。结果表明,我们的方法优于基模型和监督微调 (SFT),尤其是在零样本和单样本设置中,分别提高了 30% 和 10%。此外,SeCoKD 在评估新任务时几乎没有负面影响,比监督微调更稳健。