摘要
arXiv:2504.01707v2 Announce Type: replace-cross
摘要:上下文学习(ICL)对于大型语言模型(LLMs)至关重要,但其 effectiveness 受限于有限的上下文窗口,尤其是在超长上下文中。为克服这一限制,我们引入了 InfiniteICL 框架,该框架将 LLM 中的上下文和参数与人类认知系统中的短期和长期记忆相并行,重点在于将临时上下文知识转化为永久参数更新。这种方法显著减少了内存使用,维持了在不同输入长度下的稳健性能,并且从上下文知识的提取、选择和巩固原则理论上实现了无限上下文的集成。评估结果表明,我们的方法在事实回忆、基于事实的推理和技能获取任务中,相较于完整上下文提示,减少了90%的上下文长度,平均性能提高了103%。当我们对复杂的真实世界上下文进行顺序多轮变换(最长可达2M标记)时,我们的方法在使用原始上下文的0.4%的情况下超过了完整上下文提示。这些发现强调了 InfiniteICL 在增强 LLMS 的可扩展性和效率方面的潜力,打破了传统上下文窗口大小的限制。