LLM2D
大型语言模型中的上下文学习是否足以用于指令遵循?
Is In-Context Learning Sufficient for Instruction Following in LLMs?
作者: Hao Zhao, Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2405.19874v2

摘要

在上下文学习 (ICL) 中,大型语言模型 (LLM) 可以从示例中学习而无需改变其权重:这对于能够从大量示例中学习的长上下文 LLM 来说是一个特别有前景的能力。最近,Lin 等人 (2024) 提出了 URIAL,一种仅使用三个上下文示例来对齐基础 LLM 的方法,从而实现了非平凡的指令遵循性能。在这项工作中,我们表明,虽然有效,但与在已建立的基准 MT-Bench 上进行指令微调相比,使用 URIAL 进行 ICL 对齐仍然表现不佳,尤其是在使用更强大的基础 LLM 时。然后,我们揭示了上下文对齐成功的最相关因素,发现解码参数的关键作用。基于这些见解,我们表明,通过在上下文中添加高质量的、可能通过贪婪搜索精心选择的演示,URIAL 的方法确实可以得到改进,从而接近指令模型的性能。最后,我们提供了第一个关于 ICL 和指令微调 (IFT) 在低数据状态下用于指令遵循的系统比较,在低数据状态下,ICL 可以成为 IFT 的可行替代方案。总的来说,我们的工作促进了对 ICL 作为一种对齐技术的理解及其与 IFT 的关系。我们在 https://github.com/tml-epfl/icl-alignment 上提供了我们的代码。