摘要
arXiv:2504.00180v1 类型: cross
摘要:检索增强生成(RAG)系统已成为增强大型语言模型(LLMs)的一种强大方法,使其能够获取最新的信息。然而,RAG系统中的检索步骤有时会显示包含矛盾信息的文件,特别是在新闻等快速发展的领域。这些矛盾会严重影响LLMs的性能,导致不一致或错误的输出。本研究通过两种方式来应对这一关键挑战。首先,我们提出了一种新的数据生成框架,以模拟RAG系统检索阶段可能出现的不同类型的矛盾。其次,我们评估了不同LLMs作为上下文验证器的鲁棒性,评估它们在检测检索文件集中矛盾信息方面的能力。我们的实验结果表明,即使是最先进的LLMs,上下文验证仍然是一个具有挑战性的任务,不同类型的矛盾在性能上差异显著。虽然较大的模型一般在矛盾检测方面表现更好,但不同的提示策略在不同任务和模型架构上的效果不同。我们发现,对于某些模型,思维链提示显示出明显的改进,但在其他模型中可能会阻碍性能,这突显了该任务的复杂性以及在RAG系统中需要更稳健的方法来进行上下文验证。