LLM2D
多语言中大型语言模型的虚構程度有多高?关于大型语言模型在野生状态下的多语言虚構估计
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild
作者: Saad Obaid ul Islam, Anne Lauscher, Goran Glava\v{s}
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12769v1

摘要

arXiv:2502.12769v1 交叉公告类型 摘要:在信息误导的时代,大型语言模型(LLMs)生成非事实性或不忠实响应的趋势——幻觉——代表了它们全球应用的主要风险。尽管LLMs正在变得越来越多种语言,但检测和量化LLM幻觉的研究主要集中在(a)以英语为中心和(b)集中在机器翻译(MT)和摘要任务上,而这些任务在野外不如开放信息检索常见。相比之下,我们旨在跨多种语言衡量知识密集型长格式问题回答中的LLM幻觉程度。为此,我们训练了一种多语言幻觉检测模型,并在30种语言和6种开源LLM家族中进行了大规模研究。我们从一种英语幻觉检测数据集开始,并依靠机器翻译生成其他语言的(嘈杂)训练数据。我们还为五种高资源语言手动标注黄金数据;然后,我们表明,对于这些语言,LLM生成的银色数据集和黄金测试集中的幻觉率估计相似,验证了使用银色数据估计其他语言的幻觉率的有效性。最后,在30种语言中构建了一个知识密集型QA数据集,LLM生成的提示和维基百科文章作为参考。我们发现,虽然LLMs对于高资源语言生成了更长且包含更多幻觉令牌的响应,但语言的数字表示与正常化幻觉率之间不存在相关性。此外,我们发现较小的LLMs的幻觉率高于较大的模型。