LLM2D

摘要

大型语言模型（LLM）通过先进的提示技术在各种任务中取得了显著的性能提升。然而，提示长度的增加导致了高昂的计算成本，并且经常掩盖关键信息。提示压缩被提出来缓解这些问题，但它面临着（i）捕获全局上下文和（ii）有效地训练压缩器这两个挑战。为了应对这些挑战，我们提出了一种新颖的提示压缩方法，即阅读到压缩（R2C），利用融合解码器（FiD）架构来识别提示中的重要信息。具体来说，FiD的交叉注意力分数被用来从提示中识别出重要的片段和句子。R2C有效地捕获了全局上下文，在不影响语义一致性的情况下，绕过了训练压缩器所需的伪标签。实证结果表明，R2C保留了关键上下文，在域外评估中将LLM性能提高了6%，同时将提示长度缩短了80%。