LLM2D

摘要

arXiv:2504.05646v1 类型: cross 摘要：注意机制革命性地改变了序列学习，但存在二次时间复杂度的缺陷。本文提出了一种新型的递归神经网络（RNN）机制——Lattice，它利用K-V矩阵固有的低秩结构高效地压缩缓存到固定数量的内存槽中，实现了次二次时间复杂度。我们将这种压缩形式化为一个在线优化问题，并基于单一步梯度下降推导出动态内存更新规则。这种递归具备状态和输入依赖的门控机制，提供了一个可解释的内存更新过程。核心创新在于正交更新：每个内存槽仅根据与当前状态正交的信息进行更新，从而仅整合新颖的、不冗余的数据，以最小化对之前存储信息的干扰。实验结果表明，在多种上下文长度下，Lattice 的困惑度优于所有基线模型，且随着上下文长度的增加，性能提高更为明显。