摘要
arXiv:2409.04318v2 宣告类型: 替换交叉
摘要:生成型大规模语言模型(LLMs)能够进行上下文学习。然而,上下文学习(ICL)的内在机制仍然是一个主要的研究问题,关于模型如何利用ICL的实验研究结果并不总是前后一致的。在这项工作中,我们提出了一种评估上下文学习机制的框架,我们认为这些机制是检索内部知识和聚焦回归任务学习上下文示例的结合。首先,我们展示了LLMs能够解决实际世界的回归问题,然后设计实验来衡量LLMs在检索其内部知识与从上下文示例中学习的哪个方面占主导地位。我们认为这一过程在这两个极端之间存在一个连续谱。我们深入分析了这些机制在各种因素(如任务的先验知识以及上下文示例提供的信息的类型和丰富性)作用下被触发的程度。我们使用三种LLMs并利用多个数据集来验证我们结果的稳健性。我们的结果揭示了如何根据所解决的问题来设计提示,从而利用上下文示例进行元学习并促进知识检索。