摘要
arXiv:2501.06425v3 宣告类型: 替换-交叉
摘要:将语言模型扩展以处理更长的输入序列通常需要大量的键值(KV)缓存,导致推理过程中内存开销大幅增加。本文中,我们提出了张量积注意力(TPA),这是一种新颖的注意力机制,使用张量分解来紧凑地表示查询、键和值,显著减少了推理时的KV缓存大小。通过将这些表示分解为上下文低秩组件(上下文因式分解)并无缝集成RoPE,TPA 在提高模型质量的同时实现了内存效率。基于TPA,我们引入了张量积注意力转换器(T6),这是一种新的序列建模模型架构。通过在语言建模任务上的广泛实证评估,我们证明了T6在各种指标上超过了包括MHA、MQA、GQA和MLA在内的标准Transformer基线模型,包括困惑度和一系列知名评估基准。值得注意的是,TPA的内存效率使得在固定资源约束下能够处理显著更长的序列,解决了现代语言模型中的关键可扩展性挑战。代码可在https://github.com/tensorgi/T6获取。