摘要
arXiv:2504.12673v1 Announce Type: cross
摘要:自提取压缩利用小型语言模型来压缩与查询相关的上下文,从而在检索增强生成(RAG)中减少计算成本。然而,检索到的文档通常包含与回答查询无关的信息,或者由于事实错误的内容而具有误导性,尽管这些文档有较高的相关得分。这种行为表明,自提取压缩器更有可能遗漏对正确答案至关重要的信息,尤其是在长上下文中注意力分散的情况下。为了解决这一问题,我们以更精细的方式对检索到的文档进行分类,并提出了一种名为Abstractive Compression Robust against Noise (ACoRN)的方法,该方法引入了两种新颖的训练步骤。首先,我们在训练数据集上使用离线数据增强,以增强压缩器对两种不同类型的检索噪声的鲁棒性。其次,由于基于语言模型的压缩器无法充分利用多份检索文档中的信息,并表现出位置偏见,我们进行微调以生成围绕支持正确答案的关键信息为中心的摘要。我们的实验表明,使用ACoRN作为压缩器训练的T5-large模型在保留答案字符串的同时提高了EM和F1分数,这可以作为直接证据。ACoRN在包含大量降低准确率的文档的数据集上表现出色,使其在实际场景中非常有用。