LLM2D

摘要

大型语言模型（LLMs）的兴起极大地影响了决策系统中信息的质量，导致了人工智能生成内容的普及，以及在检测虚假信息和管理冲突信息或“证据间冲突”方面的挑战。本研究提出了一种生成多样化、经过验证的证据冲突的方法，以模拟现实世界中的虚假信息场景。我们评估了包括自然语言推理（NLI）模型、事实一致性（FC）模型和 LLMs 在内的冲突检测方法在这些冲突上的表现（RQ1），并分析了 LLMs 的冲突解决行为（RQ2）。我们的主要发现包括：（1）NLI 和 LLM 模型在检测答案冲突方面表现出较高的精确度，但较弱的模型召回率较低；（2）FC 模型难以处理词汇上相似的答案冲突，而 NLI 和 LLM 模型则处理得更好；（3）更强大的模型，如 GPT-4，表现出稳健的性能，尤其是在处理细微的冲突方面。在冲突解决方面，LLMs 通常偏向于某一冲突证据，而没有提供理由，如果它们有先验信念，则依赖于内部知识。