LLM2D

摘要

arXiv:2502.09387v2 Announce Type: replace-cross 摘要：我们引入了一个针对巴斯克语、加泰罗尼亚语、加利西亚语和西班牙语的专业翻译扩展版本的TruthfulQA基准，用于评估真实性。迄今为止，大型语言模型（LLMs）的真实性评估主要在英语中进行。然而，LLMs在不同语言中保持真实性的能力尚未得到充分探索。本研究评估了12种最先进的开源LLMs，使用人类评估、多项选择指标以及LLM-as-a-Judge评分来比较基础模型和指令调优模型。我们的研究结果表明，尽管LLMs在英语中的表现最佳，而在巴斯克语（资源最少的语言）中的表现最差，但不同语言之间的整体真实性差异比预期要小。此外，我们展示了相对于多项选择指标，LLM-as-a-Judge与人类判断的相关性更高，并且信息量在真实性评估中起着关键作用。此外，我们的结果还表明，机器翻译为将真实性基准扩展到其他语言提供了可行的方法，提供了与专业翻译相比更具可扩展性的替代方案。最后，我们观察到，跨语言处理普遍知识问题比上下文和时间依赖的问题更好，突显了需要考虑文化与时间差异的真实性评估的必要性。数据集和代码均在开放许可下公开可用。