LLM2D

摘要

arXiv:2410.13846v2 Announce Type: replace-cross 摘要：将语言模型扩展以处理更长的上下文引入了重大的内存挑战，因为键值（KV）缓存的成本随着规模的增加而增加。受混合模型效率提升以及大型预训练变压器基础架构的广泛可用性的启发，我们探索了将变压器模型转换为混合架构以实现更高效的生成。在本文中，我们提出了一种名为LightTransfer的轻量级方法，将LLaMA等模型转换为混合变体。我们的方法识别出懒惰层——这些层专注于最近或初始的令牌——并用流式注意力替换它们的全注意力。对于长上下文理解任务，此转换可以在没有任何训练的情况下进行；而对于需要更强推理能力的类似o1的长推理生成任务，可以通过最少的微调来实现。跨多种基准和模型（例如，LLaMA、Mistral、QwQ-STILL）的实验表明，即使有一半的层被识别为懒惰层，LightTransfer仍能实现最多2.17倍的吞吐量提升，并且性能损失最小（LongBench上<1.5%）；并且在高级类似o1的长推理模型QwQ-STILL的数学基准AIME24上实现了53.3%的性能。