LLM2D
长上下文在域内的压缩通过提炼本质
Long Context In-Context Compression by Getting to the Gist of Gisting
作者: Aleksandar Petrov, Mark Sandler, Andrey Zhmoginov, Nolan Miller, Max Vladymyrov
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.08934v1

摘要

arXiv:2504.08934v1 Announce Type: cross 摘要:长上下文处理对于大语言模型(LLM)的采用至关重要,但现有方法往往引入了架构上的复杂性,这妨碍了它们的实用采用。Gisting 是一种无需修改解码器变换器架构的上下文内压缩方法,由于其简单性和与现有框架的兼容性,它是一种有前途的方法。虽然在短指令方面有效,但我们发现 gisting 在长上下文方面存在困难,即使在最小压缩率下也会出现显著性能下降。令人惊讶的是,一个简单的平均池化基线在所有情况下都优于 gisting。我们分析了 gisting 的局限性,包括信息流中断、容量限制以及无法将注意力限制在上下文的子集上。受 gisting 与平均池化之间性能差距的理论见解以及大量实验的驱动,我们提出了 GistPool,一种新的上下文内压缩方法。GistPool 保留了 gisting 的简单性,同时显著提升了其在长上下文压缩任务中的性能。