LLM2D
CacheFormer:基于高注意力缓存的段缓存
CacheFormer: High Attention-Based Segment Caching
作者: Sushant Singh, Ausif Mahmood
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.13981v1

摘要

arXiv:2504.13981v1 交叉公告类型 摘要:在基于变压器的语言模型中高效处理长上下文并在低困惑度下是一个活跃的研究领域。诸如Linformer、Longformer、Performer和结构化状态空间模型(SSMs)等许多最近的方法尚未完全解决这个问题。所有这些模型都在努力降低注意力机制的二次时间复杂度,同时尽量减少因有效压缩长上下文而导致的质量损失。受计算机中的缓存和虚拟内存原理的启发,在缓存缺失的情况下,不仅会从内存中检索出所需的缓存,还会获得相邻的数据,我们在此概念下通过将长上下文分割成小片段来处理长上下文。在我们的设计中,当在压缩级别上发生高片段级注意力时,我们可以以未压缩的形式检索邻近的片段。我们处理长上下文的增强功能包括聚合四种注意力机制,即短滑动窗口注意力、长压缩分割注意力、动态检索高注意力未压缩的前k个片段,以及在长片段注意力中重叠片段,以避免片段碎片化。这些增强功能产生了一种架构,其在同等模型大小下,平均困惑度改进了8.5%,超越了现有最先进的架构。