摘要
arXiv:2410.13846v2 Announce Type: replace-cross
摘要:将语言模型扩展以处理更长的上下文引入了重大的内存挑战,因为键值(KV)缓存的成本随着其规模的扩大而增加。受混合模型效率提升的启发以及大型预训练Transformer骨干的广泛可用性,我们探索了将Transformer模型转换为混合架构以实现更高效的生成。在本文中,我们提出了LightTransfer,这是一种轻量级方法,可以将LLaMA等模型转换为混合变体。我们的方法识别出懒惰层——那些专注于最近或最初部分的令牌——并用流式注意替换它们的完整注意。这种转换可以在长上下文理解任务中无需任何训练,或仅需最少的微调(对于需要更强推理能力的类似o1的长推理生成任务)即可完成。在各种基准测试和模型(例如LLaMA、Mistral、QwQ-STILL)上的实验表明,即使有半数层被识别为懒惰层,LightTransfer仍可实现高达2.17倍的吞吐量提升,同时性能损失最小(在LongBench上的损失小于1.5%),并在高级类似o1的长推理模型QwQ-STILL的数学基准测试AIME24上达到53.3%。