LLM2D
多模态大模型在不同语言中会虚构多少内容?关于自然环境中的多语言大模型虚构现象估计的研究
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild
作者: Saad Obaid ul Islam, Anne Lauscher, Goran Glava\v{s}
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.12769v2

摘要

arXiv:2502.12769v2 宣告类型: replace-cross 摘要:在信息错误的时代,幻觉——大型语言模型(LLMs)生成非事实性或不忠实回答的倾向——代表了它们全球应用的主要风险。尽管LLMs变得越来越具备多语言能力,但关于检测和量化LLM幻觉的研究主要集中在(a)以英语为中心和(b)集中于机器翻译(MT)和摘要等任务上,而这些任务在现实世界中比开放信息查找更为罕见。相比之下,我们旨在衡量知识密集型长格式问答领域中不同语言的LLM幻觉程度。为此,我们训练了一个多语言幻觉检测模型,并在30种语言和6个开源LLM家族中进行了大规模研究。我们从英语幻觉检测数据集开始,并依赖机器翻译生成其他语言的(嘈杂的)训练数据。我们还为五种高资源语言人工标注了黄金数据;然后,我们证明,对于这些语言,银数据(LLM生成的)和黄金测试集中的幻觉率估计相似,从而验证了使用银数据估计其他语言的幻觉率的合理性。最终,在30种语言中,我们使用LLM生成的提示和维基百科文章作为参考,构建了一个知识密集型问答数据集。我们发现,虽然LLM为高资源语言生成更长的、包含更多幻觉标记的回答,但语言的数字化表示与幻觉率的归一化长度之间没有相关性。此外,我们发现较小的LLM表现出比更大模型更高的幻觉率。