LLM2D

摘要

arXiv:2502.09387v1 宣告类型: cross 摘要: 我们介绍了一个专业翻译扩展的 TruthfulQA 基准,旨在评估巴斯克语、加泰罗尼亚语、加利西亚语和西班牙语中的真实性。对大型语言模型（LLMs）真实性的评估主要在英语中进行。然而,LLMs 跨语言保持真实性的能力尚未得到充分探索。我们的研究评估了 12 个最先进的开源 LLMs,使用人工评估、多项选择指标以及 LLM 作为裁判的评分方法,比较了基础模型和指令调整模型。我们的研究发现,虽然 LLMs 在英语中的表现最佳,在巴斯克语（最低资源语言）中表现最差,但不同语言之间的总体真实性差异比预期的小得多。此外,我们展示了 LLM 作为裁判与人工判断的相关性比多项选择指标更紧密,并且信息量在真实性评估中起着关键作用。我们的结果还表明,机器翻译为将真实性基准扩展到其他语言提供了一种可行的方法,为专业翻译提供了可扩展的替代方案。最后,我们观察到,跨语言相比情境依赖性和时间依赖性问题,通用知识问题更好处理,这强调了需要考虑到文化与时间变异性的真实性评估。数据集和代码在开源许可下可供公众使用。