摘要
arXiv:2502.09387v2 Announce Type: replace-cross
摘要:我们引入了一个针对巴斯克语、加泰罗尼亚语、加利西亚语和西班牙语的专业翻译扩展版本的TruthfulQA基准,用于评估真实性。迄今为止,大型语言模型(LLMs)的真实性评估主要在英语中进行。然而,LLMs在不同语言中保持真实性的能力尚未得到充分探索。本研究评估了12种最先进的开源LLMs,使用人类评估、多项选择指标以及LLM-as-a-Judge评分来比较基础模型和指令调优模型。我们的研究结果表明,尽管LLMs在英语中的表现最佳,而在巴斯克语(资源最少的语言)中的表现最差,但不同语言之间的整体真实性差异比预期要小。此外,我们展示了相对于多项选择指标,LLM-as-a-Judge与人类判断的相关性更高,并且信息量在真实性评估中起着关键作用。此外,我们的结果还表明,机器翻译为将真实性基准扩展到其他语言提供了可行的方法,提供了与专业翻译相比更具可扩展性的替代方案。最后,我们观察到,跨语言处理普遍知识问题比上下文和时间依赖的问题更好,突显了需要考虑文化与时间差异的真实性评估的必要性。数据集和代码均在开放许可下公开可用。