LLM2D

摘要

arXiv:2504.12673v1 Announce Type: cross 摘要：自提取压缩利用小型语言模型来压缩与查询相关的上下文，从而在检索增强生成（RAG）中减少计算成本。然而，检索到的文档通常包含与回答查询无关的信息，或者由于事实错误的内容而具有误导性，尽管这些文档有较高的相关得分。这种行为表明，自提取压缩器更有可能遗漏对正确答案至关重要的信息，尤其是在长上下文中注意力分散的情况下。为了解决这一问题，我们以更精细的方式对检索到的文档进行分类，并提出了一种名为Abstractive Compression Robust against Noise (ACoRN)的方法，该方法引入了两种新颖的训练步骤。首先，我们在训练数据集上使用离线数据增强，以增强压缩器对两种不同类型的检索噪声的鲁棒性。其次，由于基于语言模型的压缩器无法充分利用多份检索文档中的信息，并表现出位置偏见，我们进行微调以生成围绕支持正确答案的关键信息为中心的摘要。我们的实验表明，使用ACoRN作为压缩器训练的T5-large模型在保留答案字符串的同时提高了EM和F1分数，这可以作为直接证据。ACoRN在包含大量降低准确率的文档的数据集上表现出色，使其在实际场景中非常有用。