摘要
arXiv:2504.13079v1 宣告类型: cross
摘要: 大型语言模型(LLM)代理越来越多地采用检索增强生成(RAG)来提高其响应的准确性。然而,在实践中,这些系统在处理含糊不清的用户查询和来自多个来源的潜在冲突信息时,也需要抑制来自噪声或无关文档的不准确信息。先前的工作通常分别孤立地研究和解决这些问题,每次只考虑一个方面,例如处理含糊性或对噪声和虚假信息的鲁棒性。相反,我们同时考虑了多个因素,提出了(i) RAMDocs(含糊信息和虚假信息的文档检索),这是一个新数据集,模拟了用户查询复杂且现实的场景,包括含糊性、虚假信息和噪声;以及(ii) MADAM-RAG,这是一种多代理方法,其中LLM代理在多轮中辩论答案的优点,允许聚合器将与消除了虚假信息和噪声的实体对应的响应汇总起来,从而同时处理多种冲突来源。我们使用闭源和开源模型在AmbigDocs上展示了MADAM-RAG的有效性——AmbigDocs要求呈现所有有效答案以应对含糊查询——相比强大的RAG基准提高了多达11.40%;在FaithEval上——FaithEval要求抑制虚假信息——我们使用Llama3.3-70B-Instruct提高了多达15.80%(绝对值)。此外,我们发现RAMDocs对现有RAG基准构成了挑战(仅Llama3.3-70B-Instruct获得32.60分的完全匹配分数)。虽然MADAM-RAG开始解决这些冲突因素,但我们的分析表明,尤其是在增加支持证据和虚假信息的不平衡程度时,仍存在显著差距。