摘要
arXiv:2408.11546v3 宣告类型: 替换-交叉
摘要:上下文内学习(ICL)已被证明是提高大型语言模型(LLMs)性能的有效策略,无需额外训练。然而,这种性能提升的确切机制仍然不清楚。本研究首次展示了ICL如何揭示记忆化的训练数据,并探讨了这种记忆化与在不同ICL范式下的下游任务性能的相关性:零样本、少样本和多样本。我们的主要发现包括:(1)与零样本学习相比,在大多数情况下,ICL显著揭示了记忆化;(2)未提供标签的演示是揭示记忆化的最有效元素;(3)当少样本范式下的揭示记忆化程度达到较高水平(约40%)时,ICL提高了性能;(4)当ICL在性能上优于零样本学习时,性能和记忆化之间存在非常强烈的关联。总体而言,本研究揭示了记忆化作为一个新的影响ICL的因素,提出了一个重要问题:在ICL中,LLMs真正从演示中泛化到什么程度,其成功有多少是由于记忆化的因素?