LLM2D

摘要

arXiv:2412.12094v4 Announce Type: replace-cross 摘要：大规模语言模型（LLMs）在一系列自然语言处理任务中表现出色。然而，它们庞大的规模带来了显著的挑战，尤其是在计算需求和推理速度方面，因为它们具有二次复杂度。在本工作中，我们识别出一个关键模式：某些看似无意义的特殊标记（即分隔符）相较于有语义意义的标记，对注意力得分的贡献不成比例。这一观察表明，这些分隔符之间的片段信息可以有效地压缩并浓缩到分隔符本身中，而不会造成显著的信息损失。依据这一见解，我们引入了SepLLM，这是一种即插即用框架，通过压缩这些片段并消除冗余标记来加速推理。此外，我们还实现了高效的训练内核以加速训练过程。在训练免费、从零开始训练和后训练设置下的实验结果显示了SepLLM的有效性。值得注意的是，使用Llama-3-8B作为主干模型，在GSM8K-CoT基准测试中，SepLLM实现了超过50%的KV缓存减少，同时保持了相当的性能。此外，在流式设置中，SepLLM能够处理多达400万甚至更多的标记序列，同时保持一致的语言建模能力。