LLM2D

摘要

arXiv:2502.12769v1 交叉公告类型摘要：在信息误导的时代，大型语言模型（LLMs）生成非事实性或不忠实响应的趋势——幻觉——代表了它们全球应用的主要风险。尽管LLMs正在变得越来越多种语言，但检测和量化LLM幻觉的研究主要集中在（a）以英语为中心和（b）集中在机器翻译（MT）和摘要任务上，而这些任务在野外不如开放信息检索常见。相比之下，我们旨在跨多种语言衡量知识密集型长格式问题回答中的LLM幻觉程度。为此，我们训练了一种多语言幻觉检测模型，并在30种语言和6种开源LLM家族中进行了大规模研究。我们从一种英语幻觉检测数据集开始，并依靠机器翻译生成其他语言的（嘈杂）训练数据。我们还为五种高资源语言手动标注黄金数据；然后，我们表明，对于这些语言，LLM生成的银色数据集和黄金测试集中的幻觉率估计相似，验证了使用银色数据估计其他语言的幻觉率的有效性。最后，在30种语言中构建了一个知识密集型QA数据集，LLM生成的提示和维基百科文章作为参考。我们发现，虽然LLMs对于高资源语言生成了更长且包含更多幻觉令牌的响应，但语言的数字表示与正常化幻觉率之间不存在相关性。此外，我们发现较小的LLMs的幻觉率高于较大的模型。