摘要
检索增强生成(RAG)通过从外部源检索证据,将非参数知识引入大型语言模型(LMs),从而改进了这些模型。然而,它常常难以过滤掉不一致和无关的信息,这些信息可能会分散LMs在任务中的注意力。尽管使用压缩模型压缩检索到的证据旨在解决这一问题,但压缩后的证据可能对用于下游任务的目标模型来说仍然陌生,从而可能无法有效利用这些证据。我们提出了FaviComp(熟悉感知的证据压缩),这是一种无需训练的证据压缩技术,使检索到的证据对目标模型更加熟悉,同时无缝集成模型的参数知识。具体而言,FaviComp通过结合压缩模型和目标模型的标记概率,主动降低压缩证据相对于目标模型的困惑度,从而生成对目标模型更熟悉的内容。这种方法平衡了参数和非参数知识的整合,在检索证据集可能不包含所有必要信息的复杂任务中尤为有用。实验结果表明,FaviComp在多个开放域问答数据集上持续优于现有基线,实现了高压缩率,并展示了参数和非参数知识的有效整合。