LLM2D

摘要

arXiv:2503.22877v1 交叉类型: 公告摘要：事实核查是大型语言模型（LLMs）对抗不断扩散的虚假信息的一种潜在有用的应用。然而，LLMs在不同地理区域的表现各不相同。在这篇论文中，我们评估了跨不同地区和场景的公开和私有模型的事实准确性。利用一个包含600个平衡分布在六大全球区域的事实核查陈述的数据集，我们研究了三种事实核查陈述的实验设置：（1）只有陈述可用时，（2）利用拥有维基访问权限的基于LLM的代理时，以及（3）利用提供了官方事实核查的检索增强生成（RAG）系统进行的最佳情况下的场景。我们的研究发现，无论是在哪种场景和使用哪种LLM（包括GPT-4、Claude Sonnet和LLaMA），来自全球北方的陈述在表现上远远好于来自全球南方的陈述。此外，在维基访问代理系统这种更加现实的场景下，这一差距进一步扩大，突显了过于泛化的知识库在处理地区特有的细微差别方面能力有限。这些结果强调了在地理多样性背景下，为了提升LLM事实核查能力，迫切需要更好地平衡数据集和开发稳健的检索策略。