LLM2D

摘要

arXiv:2412.12094v4 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在一系列自然语言处理任务中表现出色。然而，它们巨大的规模带来了显著的挑战，特别是在计算需求和推理速度方面，由于其 quadratic 复杂性。在这项工作中，我们发现了一个关键模式：某些看似无意义的特殊标记（即分隔符）相比具有语义意义的标记，在注意力得分中占比异常高。这一观察表明，这些分隔符之间的段落信息可以有效被压缩并汇总到分隔符本身，而不损失显著的信息。鉴于这一洞察，我们引入了 SepLLM，这是一种即插即用框架，通过压缩这些段落并消除冗余标记来加速推理。此外，我们还实现了高效的训练内核以加速训练。在无训练、从零开始训练和后训练设置下的实验结果表明 SepLLM 的有效性。值得注意的是，使用 Llama-3-8B 底模，SepLLM 在 GSM8K-CoT 基准测试中 KV 缓存减少了超过 50%，同时保持了相当的性能。此外，在流式设置下，SepLLM 能够处理多达 4 百万甚至更多的标记序列，同时保持一致的语言建模能力。