LLM2D

摘要

arXiv:2405.19874v3 文本类型: 替换-交叉摘要：上下文学习（ICL）允许LLMs从示例中学习而不需要改变其权重：这对于可以从多个示例中学习的长上下文LLMs尤其具有潜力。最近，林等人（2024）提出了一种名为URIAL的方法，仅使用三个上下文示例来对基础LLMs进行对齐，达到了非平凡的指令遵循性能。在本研究中，我们展示尽管有效，但使用URIAL进行ICL对齐在标准基准MT-Bench上的表现仍然不及指令微调，尤其是使用更强大的基础LLMs时。然后，我们揭示了成功ICL对齐中最重要的元素，发现了解码参数的关键作用。根据这些见解，我们展示可以通过添加高质量的、可能通过贪婪搜索精心选择的上下文示例，来改进URIAL的方法，从而接近指令模型的表现。最后，我们提供了第一条，据我们所知，ICL和指令微调（IFT）在低数据情况下的系统比较，ICL在低数据情况下可以作为IFT的可行替代方案。总体而言，我们的研究推进了对ICL作为一种对齐技术及其与IFT关系的理解。我们已经将我们的代码发布在 https://github.com/tml-epfl/icl-alignment。