LLM2D

摘要

先前研究表明，演示可以显著帮助大型语言模型 (LLM) 在给定任务上取得更好的表现。然而，这种所谓的“上下文学习”(ICL) 能力对演示的上下文非常敏感，通常需要数十个演示。在这项工作中，我们研究了是否可以在保持竞争性能的同时减少演示次数。我们提出了 SeCoKD，这是一个自知识蒸馏 (KD) 训练框架，它将学生模型与一个经过大量提示的变体对齐，从而提高单一演示的利用率。我们在三个 LLM 和六个基准上对 SeCoKD 进行了实验，主要关注推理任务。结果表明，我们的方法优于基模型和监督微调 (SFT)，尤其是在零样本和单样本设置中，分别提高了 30% 和 10%。此外，SeCoKD 在评估新任务时几乎没有负面影响，比监督微调更稳健。