摘要
arXiv:2503.11108v2 宣告类型: replace-cross
摘要:在张量版本的变压器中,键值(KV)缓存在推理过程中构成了一个显著的瓶颈。虽然以往的工作分析了标准注意力机制中的基本空间复杂性障碍[Haris 和 Onak, 2025],我们的工作将这些空间复杂性障碍的结果推广到了张量注意力版本。我们的理论贡献依赖于从通信复杂性的问题减少,并推导出当 $d = \Omega(\log n)$ 时,张量结构化注意力机制所需的最低内存界限。此外,我们介绍了两种类型的张量注意力缓存,并在两种场景中提出了时间和内存之间的权衡。总体而言,我们的工作为理解张量注意力解码中 KV-Cache 压缩的时间-内存权衡提供了理论基础,并为开发更高效的张量注意力变压器架构提供了更多视角。