摘要
arXiv:2502.12769v2 宣告类型: replace-cross
摘要:在信息错误的时代,幻觉——大型语言模型(LLMs)生成非事实性或不忠实回答的倾向——代表了它们全球应用的主要风险。尽管LLMs变得越来越具备多语言能力,但关于检测和量化LLM幻觉的研究主要集中在(a)以英语为中心和(b)集中于机器翻译(MT)和摘要等任务上,而这些任务在现实世界中比开放信息查找更为罕见。相比之下,我们旨在衡量知识密集型长格式问答领域中不同语言的LLM幻觉程度。为此,我们训练了一个多语言幻觉检测模型,并在30种语言和6个开源LLM家族中进行了大规模研究。我们从英语幻觉检测数据集开始,并依赖机器翻译生成其他语言的(嘈杂的)训练数据。我们还为五种高资源语言人工标注了黄金数据;然后,我们证明,对于这些语言,银数据(LLM生成的)和黄金测试集中的幻觉率估计相似,从而验证了使用银数据估计其他语言的幻觉率的合理性。最终,在30种语言中,我们使用LLM生成的提示和维基百科文章作为参考,构建了一个知识密集型问答数据集。我们发现,虽然LLM为高资源语言生成更长的、包含更多幻觉标记的回答,但语言的数字化表示与幻觉率的归一化长度之间没有相关性。此外,我们发现较小的LLM表现出比更大模型更高的幻觉率。