LLM2D
lattice: 学习高效压缩内存
Lattice: Learning to Efficiently Compress the Memory
作者: Mahdi Karami, Vahab Mirrokni
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05646v1

摘要

arXiv:2504.05646v1 类型: cross 摘要:注意机制革命性地改变了序列学习,但存在二次时间复杂度的缺陷。本文提出了一种新型的递归神经网络(RNN)机制——Lattice,它利用K-V矩阵固有的低秩结构高效地压缩缓存到固定数量的内存槽中,实现了次二次时间复杂度。我们将这种压缩形式化为一个在线优化问题,并基于单一步梯度下降推导出动态内存更新规则。这种递归具备状态和输入依赖的门控机制,提供了一个可解释的内存更新过程。核心创新在于正交更新:每个内存槽仅根据与当前状态正交的信息进行更新,从而仅整合新颖的、不冗余的数据,以最小化对之前存储信息的干扰。实验结果表明,在多种上下文长度下,Lattice 的困惑度优于所有基线模型,且随着上下文长度的增加,性能提高更为明显。