摘要
arXiv:2503.22877v1 交叉类型: 公告
摘要:事实核查是大型语言模型(LLMs)对抗不断扩散的虚假信息的一种潜在有用的应用。然而,LLMs在不同地理区域的表现各不相同。在这篇论文中,我们评估了跨不同地区和场景的公开和私有模型的事实准确性。
利用一个包含600个平衡分布在六大全球区域的事实核查陈述的数据集,我们研究了三种事实核查陈述的实验设置:(1)只有陈述可用时,(2)利用拥有维基访问权限的基于LLM的代理时,以及(3)利用提供了官方事实核查的检索增强生成(RAG)系统进行的最佳情况下的场景。我们的研究发现,无论是在哪种场景和使用哪种LLM(包括GPT-4、Claude Sonnet和LLaMA),来自全球北方的陈述在表现上远远好于来自全球南方的陈述。此外,在维基访问代理系统这种更加现实的场景下,这一差距进一步扩大,突显了过于泛化的知识库在处理地区特有的细微差别方面能力有限。这些结果强调了在地理多样性背景下,为了提升LLM事实核查能力,迫切需要更好地平衡数据集和开发稳健的检索策略。