摘要
我们提出了 MELODI,一种新型的记忆架构,旨在使用短上下文窗口高效处理长文档。MELODI 的核心原则是在网络层和上下文窗口之间采用分层压缩方案来表示短期和长期记忆。具体来说,短期记忆是通过对多个层中的上下文窗口进行递归压缩来实现的,确保窗口之间的平滑过渡。相反,长期记忆在单个中间层内进行进一步压缩,并聚合来自上下文窗口的信息,有效地整合来自整个历史的关键信息。与采用大规模长期记忆(64K 个键值对)上的密集注意力机制的记忆 Transformer 这种强基线相比,我们的方法在各种长上下文数据集上表现出优越的性能,同时显着地将内存占用减少了 8 倍。