LLM2D

摘要

arXiv:2504.00180v1 类型: cross 摘要：检索增强生成（RAG）系统已成为增强大型语言模型（LLMs）的一种强大方法，使其能够获取最新的信息。然而，RAG系统中的检索步骤有时会显示包含矛盾信息的文件，特别是在新闻等快速发展的领域。这些矛盾会严重影响LLMs的性能，导致不一致或错误的输出。本研究通过两种方式来应对这一关键挑战。首先，我们提出了一种新的数据生成框架，以模拟RAG系统检索阶段可能出现的不同类型的矛盾。其次，我们评估了不同LLMs作为上下文验证器的鲁棒性，评估它们在检测检索文件集中矛盾信息方面的能力。我们的实验结果表明，即使是最先进的LLMs，上下文验证仍然是一个具有挑战性的任务，不同类型的矛盾在性能上差异显著。虽然较大的模型一般在矛盾检测方面表现更好，但不同的提示策略在不同任务和模型架构上的效果不同。我们发现，对于某些模型，思维链提示显示出明显的改进，但在其他模型中可能会阻碍性能，这突显了该任务的复杂性以及在RAG系统中需要更稳健的方法来进行上下文验证。