摘要
大型语言模型(LLM)通过先进的提示技术在各种任务中取得了显著的性能提升。然而,提示长度的增加导致了高昂的计算成本,并且经常掩盖关键信息。提示压缩被提出来缓解这些问题,但它面临着(i)捕获全局上下文和(ii)有效地训练压缩器这两个挑战。为了应对这些挑战,我们提出了一种新颖的提示压缩方法,即阅读到压缩(R2C),利用融合解码器(FiD)架构来识别提示中的重要信息。具体来说,FiD的交叉注意力分数被用来从提示中识别出重要的片段和句子。R2C有效地捕获了全局上下文,在不影响语义一致性的情况下,绕过了训练压缩器所需的伪标签。实证结果表明,R2C保留了关键上下文,在域外评估中将LLM性能提高了6%,同时将提示长度缩短了80%。