LLM2D

摘要

arXiv:2411.17116v2 宣告类型：replace-cross 摘要：基于Transformer的大语言模型（LLMs）在长序列上的推理既昂贵又慢，原因在于自我注意力机制的二次复杂度。我们引入了一种两阶段的块稀疏近似方法——Star Attention，通过在多个主机之间划分注意力来提高计算效率，同时最小化通信开销。在第一阶段，上下文通过主机之间的块局部注意力并行处理。在第二阶段，查询和响应标记通过序列全局注意力关注所有先前缓存的标记。Star Attention 无缝集成了大多数使用全局注意力训练的基于Transformer的大语言模型，将内存需求和推理时间分别减少多达11倍，同时保持97-100%的准确性。