LLM2D
InfiniteICL:通过长期短期记忆转换突破上下文窗口大小限制
InfiniteICL: Breaking the Limit of Context Window Size via Long Short-term Memory Transformation
作者: Bowen Cao, Deng Cai, Wai Lam
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01707v1

摘要

arXiv:2504.01707v1 公告类型:交叉 摘要:在上下文学习(In-context learning, ICL)是大型语言模型(LLMs)的关键,但其有效性受到有限上下文窗口的限制,尤其是在超长上下文中。为克服这一限制,我们提出了 InfiniteICL 框架,该框架借鉴人类认知系统中短时和长时记忆的模式,专注于将暂时性的上下文知识转化为永久性的参数更新。这种方法显著减少了内存使用,保持了在不同输入长度下的稳健性能,并通过上下文知识的激发、选择和巩固的原则,在理论上实现了无限上下文的整合。实验结果表明,我们的方法在事实回忆、 grounding 推理和技能获取任务中,将上下文长度减少了 90%,并且平均性能达到了全上下文提示的 103%。当在复杂、真实世界的上下文中进行序列多轮转换(长度高达 200 万标记)时,我们的方法在只使用原始上下文的 0.4% 的情况下超越了全上下文提示。这些发现突显了 InfiniteICL 在通过打破传统上下文窗口大小限制来增强 LLM 的可扩展性和效率方面的潜力。