LLM2D

摘要

arXiv:2505.00570v1 Announce Type: cross 摘要：在大规模语言模型（LLMs）中延长上下文窗口对于长形式内容生成的应用至关重要。然而，键值（KV）缓存内存需求的线性增加以及自注意力机制随着序列长度的平方级复杂度在微调和推理过程中提出了重大挑战。现有方法在扩展到更长的上下文时性能会下降。在本文中，我们提出了一种新的上下文扩展方法，以优化微调和推理效率。我们的方法利用了一个关键观察结果：在频域中，KV缓存的能量分布主要集中在低频分量中。通过过滤掉高频分量，KV缓存可以以最小的信息损失被有效压缩。基于这一洞察，我们提出了一种高效压缩技术FreqKV，该技术在频域中逐步将不断增加的KV缓存压缩到固定大小，适用于微调和推理。FreqKV不引入额外的参数或架构修改。通过最少的微调，LLMs可以学会利用在频域中压缩的有限缓存，并有效地扩展上下文窗口。在各种长上下文语言建模和理解任务中的实验表明了所提出方法的高效性和有效性。