LLM2D

摘要

arXiv:2501.06425v2 通知类型: 替换-交叉摘要: 扩展语言模型以处理更长的输入序列通常需要大量的键-值(KV)缓存，这会导致推理时产生大量的内存开销。在本文中，我们提出了一种新的注意机制——张量积注意(TPA)，它使用张量分解来紧凑地表示查询、键和值，显著减小了推理时的KV缓存大小。通过将这些表示分解为上下文低秩组件（上下文分解因素）并无缝集成RoPE，TPA 实现在内存效率提升的同时保持了模型质量。基于TPA，我们引入了张量积注意变换器（T6）这种新的序列建模模型架构。通过广泛的经验评估语言建模任务，我们证明了T6在各种度量标准中，包括困惑度和一系列知名评估基准中，超过了包括MHA、MQA、GQA和MLA在内的标准Transformer基线模型。值得注意的是，TPA 的内存效率使得在固定资源约束条件下能够处理显著更长的序列，从而解决了现代语言模型中的一个重要可扩展性挑战。代码可在 https://github.com/tensorgi/T6 获取。