LLM2D

摘要

在上下文学习 (ICL) 中，大型语言模型 (LLM) 可以从示例中学习而无需改变其权重：这对于能够从大量示例中学习的长上下文 LLM 来说是一个特别有前景的能力。最近，Lin 等人 (2024) 提出了 URIAL，一种仅使用三个上下文示例来对齐基础 LLM 的方法，从而实现了非平凡的指令遵循性能。在这项工作中，我们表明，虽然有效，但与在已建立的基准 MT-Bench 上进行指令微调相比，使用 URIAL 进行 ICL 对齐仍然表现不佳，尤其是在使用更强大的基础 LLM 时。然后，我们揭示了上下文对齐成功的最相关因素，发现解码参数的关键作用。基于这些见解，我们表明，通过在上下文中添加高质量的、可能通过贪婪搜索精心选择的演示，URIAL 的方法确实可以得到改进，从而接近指令模型的性能。最后，我们提供了第一个关于 ICL 和指令微调 (IFT) 在低数据状态下用于指令遵循的系统比较，在低数据状态下，ICL 可以成为 IFT 的可行替代方案。总的来说，我们的工作促进了对 ICL 作为一种对齐技术的理解及其与 IFT 的关系。我们在 https://github.com/tml-epfl/icl-alignment 上提供了我们的代码。