LLM2D

摘要

arXiv:2504.02441v1 类型:交叉摘要：本文探讨了大语言模型 (LLMs) 中的记忆机制，强调了这些机制对于丰富语境的响应、减少幻觉以及提高效率的重要性。文章将记忆分为感官记忆、短期记忆和长期记忆三类，感官记忆对应于输入提示，短期记忆处理即时语境，而长期记忆通过外部数据库或结构实现。文本记忆部分涵盖了记忆的获取（选择和总结）、管理（更新、访问、存储和解决冲突）以及利用（全文搜索、SQL查询、语义搜索）。基于 KV 缓存的记忆部分讨论了选择方法（基于规律的总结、基于评分的方法、特殊标记嵌入）和压缩技术（低秩压缩、KV 合并、多模态压缩），以及管理策略如卸载和共享注意力机制。基于参数的记忆方法（LoRA、TTT、MoE）将记忆转换为模型参数以提高效率，而基于隐藏状态的记忆方法（块机制、递归变换器、Mamba 模型）通过结合递归神经网络隐藏状态和当前方法来改善长文本处理。总体而言，本文对 LLM 记忆机制进行了全面分析，突出了它们的重要性以及未来的研究方向。