摘要
arXiv:2502.11020v1 公告类型:交叉
摘要:彻底评估大规模多任务语言理解(MMLU)能力对于促进多语言语言模型的应用性至关重要。然而,准备高质量的原语种基准往往成本较高,因此限制了评估数据集的代表性。尽管近期的努力集中在建立更具包容性的MMLU基准上,这些基准通常使用高资源语言的机器翻译构建,这可能会引入错误,未能考虑目标语言的语言和文化复杂性。在本文中,我们解决了特别在代表性不足的突厥语族语言中缺乏原语种MMLU基准的问题,该语言族具有独特的形态语法和文化特征。我们提出了两个突厥语族语言MMLU基准:TUMLU是一个全面、多语言且原生开发的语言理解基准,专门设计用于突厥语族语言。它包括包含阿塞拜疆语、克里米亚鞑靼语、卡拉卡尔帕克语、哈萨克语、塔塔尔语、土耳其语、维吾尔语和乌兹别克语的11个学术科目的中学和高中水平问题。我们还介绍了TUMLU-mini,这是数据集的一个更为简洁、平衡且手动验证的子集。通过使用该数据集,我们系统地评估了各种开源和专有的多语言大型语言模型(LLMs),包括Claude、Gemini、GPT和LLaMA,提供了它们在不同语言、科目和字母表上的表现的深入分析。为了促进多语言语言理解的进一步研究和开发,我们发布了TUMLU-mini以及所有相应的评估脚本。