LLM2D
SepLLM: 通过将一段压缩为一个分隔符来加速大型语言模型
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator
作者: Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang
发布日期: 2/5/2025
arXiv ID: 2412.12094

摘要

arXiv:2412.12094v4 宣告类型: replace-cross 摘要:大型语言模型(LLMs)在一系列自然语言处理任务中表现出色。然而,它们巨大的规模带来了显著的挑战,特别是在计算需求和推理速度方面,由于其 quadratic 复杂性。在这项工作中,我们发现了一个关键模式:某些看似无意义的特殊标记(即分隔符)相比具有语义意义的标记,在注意力得分中占比异常高。这一观察表明,这些分隔符之间的段落信息可以有效被压缩并汇总到分隔符本身,而不损失显著的信息。鉴于这一洞察,我们引入了 SepLLM,这是一种即插即用框架,通过压缩这些段落并消除冗余标记来加速推理。此外,我们还实现了高效的训练内核以加速训练。在无训练、从零开始训练和后训练设置下的实验结果表明 SepLLM 的有效性。值得注意的是,使用 Llama-3-8B 底模,SepLLM 在 GSM8K-CoT 基准测试中 KV 缓存减少了超过 50%,同时保持了相当的性能。此外,在流式设置下,SepLLM 能够处理多达 4 百万甚至更多的标记序列,同时保持一致的语言建模能力。