LLM2D

摘要

arXiv:2410.13846v2 Announce Type: replace-cross 摘要：将语言模型扩展以处理更长的上下文引入了重大的内存挑战，因为键值（KV）缓存的成本随着其规模的扩大而增加。受混合模型效率提升的启发以及大型预训练Transformer骨干的广泛可用性，我们探索了将Transformer模型转换为混合架构以实现更高效的生成。在本文中，我们提出了LightTransfer，这是一种轻量级方法，可以将LLaMA等模型转换为混合变体。我们的方法识别出懒惰层——那些专注于最近或最初部分的令牌——并用流式注意替换它们的完整注意。这种转换可以在长上下文理解任务中无需任何训练，或仅需最少的微调（对于需要更强推理能力的类似o1的长推理生成任务）即可完成。在各种基准测试和模型（例如LLaMA、Mistral、QwQ-STILL）上的实验表明，即使有半数层被识别为懒惰层，LightTransfer仍可实现高达2.17倍的吞吐量提升，同时性能损失最小（在LongBench上的损失小于1.5%），并在高级类似o1的长推理模型QwQ-STILL的数学基准测试AIME24上达到53.3%。