LLM2D
TUMLU:针对 Turkic 语言的统一且原生的语言理解基准测试
TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages
作者: Jafar Isbarov, Arofat Akhundjanova, Mammad Hajili, Kavsar Huseynova, Dmitry Gaynullin, Anar Rzayev, Osman Tursun, Ilshat Saetov, Rinat Kharisov, Saule Belginova, Ariana Kenbayeva, Amina Alisheva, Aizirek Turdubaeva, Abdullatif K\"oksal, Samir Rustamov, Duygu Ataman
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11020v1

摘要

arXiv:2502.11020v1 公告类型:交叉 摘要:彻底评估大规模多任务语言理解(MMLU)能力对于促进多语言语言模型的应用性至关重要。然而,准备高质量的原语种基准往往成本较高,因此限制了评估数据集的代表性。尽管近期的努力集中在建立更具包容性的MMLU基准上,这些基准通常使用高资源语言的机器翻译构建,这可能会引入错误,未能考虑目标语言的语言和文化复杂性。在本文中,我们解决了特别在代表性不足的突厥语族语言中缺乏原语种MMLU基准的问题,该语言族具有独特的形态语法和文化特征。我们提出了两个突厥语族语言MMLU基准:TUMLU是一个全面、多语言且原生开发的语言理解基准,专门设计用于突厥语族语言。它包括包含阿塞拜疆语、克里米亚鞑靼语、卡拉卡尔帕克语、哈萨克语、塔塔尔语、土耳其语、维吾尔语和乌兹别克语的11个学术科目的中学和高中水平问题。我们还介绍了TUMLU-mini,这是数据集的一个更为简洁、平衡且手动验证的子集。通过使用该数据集,我们系统地评估了各种开源和专有的多语言大型语言模型(LLMs),包括Claude、Gemini、GPT和LLaMA,提供了它们在不同语言、科目和字母表上的表现的深入分析。为了促进多语言语言理解的进一步研究和开发,我们发布了TUMLU-mini以及所有相应的评估脚本。