LLM2D

摘要

arXiv:2502.12769v2 宣告类型: replace-cross 摘要：在信息错误的时代，幻觉——大型语言模型（LLMs）生成非事实性或不忠实回答的倾向——代表了它们全球应用的主要风险。尽管LLMs变得越来越具备多语言能力，但关于检测和量化LLM幻觉的研究主要集中在（a）以英语为中心和（b）集中于机器翻译（MT）和摘要等任务上，而这些任务在现实世界中比开放信息查找更为罕见。相比之下，我们旨在衡量知识密集型长格式问答领域中不同语言的LLM幻觉程度。为此，我们训练了一个多语言幻觉检测模型，并在30种语言和6个开源LLM家族中进行了大规模研究。我们从英语幻觉检测数据集开始，并依赖机器翻译生成其他语言的（嘈杂的）训练数据。我们还为五种高资源语言人工标注了黄金数据；然后，我们证明，对于这些语言，银数据（LLM生成的）和黄金测试集中的幻觉率估计相似，从而验证了使用银数据估计其他语言的幻觉率的合理性。最终，在30种语言中，我们使用LLM生成的提示和维基百科文章作为参考，构建了一个知识密集型问答数据集。我们发现，虽然LLM为高资源语言生成更长的、包含更多幻觉标记的回答，但语言的数字化表示与幻觉率的归一化长度之间没有相关性。此外，我们发现较小的LLM表现出比更大模型更高的幻觉率。