LLM2D
SepLLM: 通过将一段压缩为一个分隔符来加速大型语言模型
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator
作者: Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2412.12094v4

摘要

arXiv:2412.12094v4 Announce Type: replace-cross 摘要:大规模语言模型(LLMs)在一系列自然语言处理任务中表现出色。然而,它们庞大的规模带来了显著的挑战,尤其是在计算需求和推理速度方面,因为它们具有二次复杂度。在本工作中,我们识别出一个关键模式:某些看似无意义的特殊标记(即分隔符)相较于有语义意义的标记,对注意力得分的贡献不成比例。这一观察表明,这些分隔符之间的片段信息可以有效地压缩并浓缩到分隔符本身中,而不会造成显著的信息损失。依据这一见解,我们引入了SepLLM,这是一种即插即用框架,通过压缩这些片段并消除冗余标记来加速推理。此外,我们还实现了高效的训练内核以加速训练过程。在训练免费、从零开始训练和后训练设置下的实验结果显示了SepLLM的有效性。值得注意的是,使用Llama-3-8B作为主干模型,在GSM8K-CoT基准测试中,SepLLM实现了超过50%的KV缓存减少,同时保持了相当的性能。此外,在流式设置中,SepLLM能够处理多达400万甚至更多的标记序列,同时保持一致的语言建模能力。