LLM2D

摘要

arXiv:2502.11020v1 公告类型：交叉摘要：彻底评估大规模多任务语言理解（MMLU）能力对于促进多语言语言模型的应用性至关重要。然而，准备高质量的原语种基准往往成本较高，因此限制了评估数据集的代表性。尽管近期的努力集中在建立更具包容性的MMLU基准上，这些基准通常使用高资源语言的机器翻译构建，这可能会引入错误，未能考虑目标语言的语言和文化复杂性。在本文中，我们解决了特别在代表性不足的突厥语族语言中缺乏原语种MMLU基准的问题，该语言族具有独特的形态语法和文化特征。我们提出了两个突厥语族语言MMLU基准：TUMLU是一个全面、多语言且原生开发的语言理解基准，专门设计用于突厥语族语言。它包括包含阿塞拜疆语、克里米亚鞑靼语、卡拉卡尔帕克语、哈萨克语、塔塔尔语、土耳其语、维吾尔语和乌兹别克语的11个学术科目的中学和高中水平问题。我们还介绍了TUMLU-mini，这是数据集的一个更为简洁、平衡且手动验证的子集。通过使用该数据集，我们系统地评估了各种开源和专有的多语言大型语言模型（LLMs），包括Claude、Gemini、GPT和LLaMA，提供了它们在不同语言、科目和字母表上的表现的深入分析。为了促进多语言语言理解的进一步研究和开发，我们发布了TUMLU-mini以及所有相应的评估脚本。