摘要
大型语言模型(LLMs)的兴起极大地影响了决策系统中信息的质量,导致了人工智能生成内容的普及,以及在检测虚假信息和管理冲突信息或“证据间冲突”方面的挑战。本研究提出了一种生成多样化、经过验证的证据冲突的方法,以模拟现实世界中的虚假信息场景。我们评估了包括自然语言推理(NLI)模型、事实一致性(FC)模型和 LLMs 在内的冲突检测方法在这些冲突上的表现(RQ1),并分析了 LLMs 的冲突解决行为(RQ2)。我们的主要发现包括:(1)NLI 和 LLM 模型在检测答案冲突方面表现出较高的精确度,但较弱的模型召回率较低;(2)FC 模型难以处理词汇上相似的答案冲突,而 NLI 和 LLM 模型则处理得更好;(3)更强大的模型,如 GPT-4,表现出稳健的性能,尤其是在处理细微的冲突方面。在冲突解决方面,LLMs 通常偏向于某一冲突证据,而没有提供理由,如果它们有先验信念,则依赖于内部知识。