摘要
arXiv:2504.16754v1 Announce Type: 跨领域
摘要:大型语言模型(LLMs)在处理涉及数百轮对话的连贯性维护方面存在困难,尽管它们在上下文窗口内表现出色。本文介绍了HEMA(海马启发式扩展记忆架构),这是一种受到人类认知过程启发的双重记忆系统。HEMA 结合了 Compact Memory(一个持续更新的一句话总结,保持全局叙述连贯性)和 Vector Memory(通过余弦相似性查询的分块嵌入 episodic 存储)。当与一个 6B 参数的变换器结合使用时,HEMA 能够保持超过 300 轮的连贯对话,同时保持提示长度低于 3,500 个标记。实验结果表明,事实回忆准确率从 41% 提高到 87%,人工评估的连贯性从 2.7 提高到 5 分量表上的 4.3。通过 10K 索引分块,Vector Memory 达到 P@5 >= 0.80 和 R@50 >= 0.74,与仅总结的方法相比,将精确召回曲线下的面积翻倍。消融研究表明了两个关键洞察:语义遗忘通过加权年龄剪枝减少检索延迟 34% 同时几乎不损失召回率,而两级摘要层次结构防止超过 1,000 轮超长对话中的级联错误。HEMA 表明,结合逐字回忆与语义连续性为具备在数月对话中保护隐私且无需模型重新训练的会话AI 提供了务实的解决方案。