LLM2D

摘要

arXiv:2504.01707v1 公告类型：交叉摘要：在上下文学习（In-context learning, ICL）是大型语言模型（LLMs）的关键，但其有效性受到有限上下文窗口的限制，尤其是在超长上下文中。为克服这一限制，我们提出了 InfiniteICL 框架，该框架借鉴人类认知系统中短时和长时记忆的模式，专注于将暂时性的上下文知识转化为永久性的参数更新。这种方法显著减少了内存使用，保持了在不同输入长度下的稳健性能，并通过上下文知识的激发、选择和巩固的原则，在理论上实现了无限上下文的整合。实验结果表明，我们的方法在事实回忆、 grounding 推理和技能获取任务中，将上下文长度减少了 90%，并且平均性能达到了全上下文提示的 103%。当在复杂、真实世界的上下文中进行序列多轮转换（长度高达 200 万标记）时，我们的方法在只使用原始上下文的 0.4% 的情况下超越了全上下文提示。这些发现突显了 InfiniteICL 在通过打破传统上下文窗口大小限制来增强 LLM 的可扩展性和效率方面的潜力。