摘要
arXiv:2405.19874v3 文本类型: 替换-交叉
摘要:上下文学习(ICL)允许LLMs从示例中学习而不需要改变其权重:这对于可以从多个示例中学习的长上下文LLMs尤其具有潜力。最近,林等人(2024)提出了一种名为URIAL的方法,仅使用三个上下文示例来对基础LLMs进行对齐,达到了非平凡的指令遵循性能。在本研究中,我们展示尽管有效,但使用URIAL进行ICL对齐在标准基准MT-Bench上的表现仍然不及指令微调,尤其是使用更强大的基础LLMs时。然后,我们揭示了成功ICL对齐中最重要的元素,发现了解码参数的关键作用。根据这些见解,我们展示可以通过添加高质量的、可能通过贪婪搜索精心选择的上下文示例,来改进URIAL的方法,从而接近指令模型的表现。最后,我们提供了第一条,据我们所知,ICL和指令微调(IFT)在低数据情况下的系统比较,ICL在低数据情况下可以作为IFT的可行替代方案。总体而言,我们的研究推进了对ICL作为一种对齐技术及其与IFT关系的理解。我们已经将我们的代码发布在 https://github.com/tml-epfl/icl-alignment。