LLM2D

摘要

arXiv:2501.06425v3 宣告类型: 替换-交叉摘要：将语言模型扩展以处理更长的输入序列通常需要大量的键值（KV）缓存，导致推理过程中内存开销大幅增加。本文中，我们提出了张量积注意力（TPA），这是一种新颖的注意力机制，使用张量分解来紧凑地表示查询、键和值，显著减少了推理时的KV缓存大小。通过将这些表示分解为上下文低秩组件（上下文因式分解）并无缝集成RoPE，TPA 在提高模型质量的同时实现了内存效率。基于TPA，我们引入了张量积注意力转换器（T6），这是一种新的序列建模模型架构。通过在语言建模任务上的广泛实证评估，我们证明了T6在各种指标上超过了包括MHA、MQA、GQA和MLA在内的标准Transformer基线模型，包括困惑度和一系列知名评估基准。值得注意的是，TPA的内存效率使得在固定资源约束下能够处理显著更长的序列，解决了现代语言模型中的关键可扩展性挑战。代码可在https://github.com/tensorgi/T6获取。