LLM2D
理解地理区域间LLM事实核查的不平等性与代理及检索模型的关系
Understanding Inequality of LLM Fact-Checking over Geographic Regions with Agent and Retrieval models
作者: Bruno Coelho, Shujaat Mirza, Yuyuan Cui, Christina P\"opper, Damon McCoy
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.22877v1

摘要

arXiv:2503.22877v1 交叉类型: 公告 摘要:事实核查是大型语言模型(LLMs)对抗不断扩散的虚假信息的一种潜在有用的应用。然而,LLMs在不同地理区域的表现各不相同。在这篇论文中,我们评估了跨不同地区和场景的公开和私有模型的事实准确性。 利用一个包含600个平衡分布在六大全球区域的事实核查陈述的数据集,我们研究了三种事实核查陈述的实验设置:(1)只有陈述可用时,(2)利用拥有维基访问权限的基于LLM的代理时,以及(3)利用提供了官方事实核查的检索增强生成(RAG)系统进行的最佳情况下的场景。我们的研究发现,无论是在哪种场景和使用哪种LLM(包括GPT-4、Claude Sonnet和LLaMA),来自全球北方的陈述在表现上远远好于来自全球南方的陈述。此外,在维基访问代理系统这种更加现实的场景下,这一差距进一步扩大,突显了过于泛化的知识库在处理地区特有的细微差别方面能力有限。这些结果强调了在地理多样性背景下,为了提升LLM事实核查能力,迫切需要更好地平衡数据集和开发稳健的检索策略。