摘要
大型语言模型 (LLM) 已经彻底改变了多种语言和任务的自然语言处理。然而,在多个欧洲语言中以一致且有意义的方式评估 LLM 性能仍然具有挑战性,尤其是在缺乏多语言基准的情况下。我们针对欧洲语言引入了一种跨语言评估方法。我们采用五种广泛使用的基准的翻译版本,以评估 40 个 LLM 在 21 种欧洲语言中的能力。我们的贡献包括检查翻译基准的有效性,评估不同翻译服务的影響,以及为 LLM 提供一个多语言评估框架,其中包括新创建的数据集:EU20-MMLU、EU20-HellaSwag、EU20-ARC、EU20-TruthfulQA 和 EU20-GSM8K。这些基准和结果将公开发布,以鼓励在多语言 LLM 评估方面进行进一步研究。