摘要
arXiv:2501.06425v2 通知类型: 替换-交叉
摘要: 扩展语言模型以处理更长的输入序列通常需要大量的键-值(KV)缓存,这会导致推理时产生大量的内存开销。在本文中,我们提出了一种新的注意机制——张量积注意(TPA),它使用张量分解来紧凑地表示查询、键和值,显著减小了推理时的KV缓存大小。通过将这些表示分解为上下文低秩组件(上下文分解因素)并无缝集成RoPE,TPA 实现在内存效率提升的同时保持了模型质量。基于TPA,我们引入了张量积注意变换器(T6)这种新的序列建模模型架构。通过广泛的经验评估语言建模任务,我们证明了T6在各种度量标准中,包括困惑度和一系列知名评估基准中,超过了包括MHA、MQA、GQA和MLA在内的标准Transformer基线模型。值得注意的是,TPA 的内存效率使得在固定资源约束条件下能够处理显著更长的序列,从而解决了现代语言模型中的一个重要可扩展性挑战。代码可在 https://github.com/tensorgi/T6 获取。