摘要
检索增强生成(RAG)赋予大型语言模型(LLM)利用外部知识来源的能力。LLM 处理更长输入序列的能力不断提升,为提供更多检索信息开辟了途径,从而有可能提高生成输出的质量。可以合理地假设,更大的检索集将包含更多相关信息(更高的召回率),这可能会导致性能提升。然而,我们的实证结果表明,对于许多长上下文 LLM 而言,生成输出的质量最初会先提高,但随后会随着检索段落的数量增加而下降。本文对这种现象进行了研究,确定了检索到的“硬负样本”的有害影响是造成这种情况的关键因素。为了减轻这种影响并增强基于长上下文 LLM 的 RAG 的鲁棒性,我们提出了无训练和基于训练的方法。我们首先展示了检索重排序作为一种简单而强大的无训练优化方法的有效性。此外,我们探索了基于训练的方法,特别是 RAG 特定的隐式 LLM 微调和面向 RAG 的带有中间推理的微调,证明了它们在显著提高性能方面的能力。最后,我们对这些基于训练方法的设计选择进行了系统分析,包括数据分布、检索器选择和训练上下文长度。