LLM2D

摘要

arXiv:2504.01707v2 Announce Type: replace-cross 摘要：上下文学习（ICL）对于大型语言模型（LLMs）至关重要，但其 effectiveness 受限于有限的上下文窗口，尤其是在超长上下文中。为克服这一限制，我们引入了 InfiniteICL 框架，该框架将 LLM 中的上下文和参数与人类认知系统中的短期和长期记忆相并行，重点在于将临时上下文知识转化为永久参数更新。这种方法显著减少了内存使用，维持了在不同输入长度下的稳健性能，并且从上下文知识的提取、选择和巩固原则理论上实现了无限上下文的集成。评估结果表明，我们的方法在事实回忆、基于事实的推理和技能获取任务中，相较于完整上下文提示，减少了90%的上下文长度，平均性能提高了103%。当我们对复杂的真实世界上下文进行顺序多轮变换（最长可达2M标记）时，我们的方法在使用原始上下文的0.4%的情况下超过了完整上下文提示。这些发现强调了 InfiniteICL 在增强 LLMS 的可扩展性和效率方面的潜力，打破了传统上下文窗口大小的限制。