摘要
arXiv:2502.14301v1 评测类型:横跨评测
摘要:随着大型语言模型(LLMs)新能力的快速涌现,集成的多语言和多文化基准测试的需求变得更加迫切。尽管现有的LLM基准测试能够评估LLMs在英语以及各种中低资源语言中的特定能力,包括东南亚(SEA)地区语言,但到目前为止,一个全面且真实的SEA语言评估套件尚未开发。在这里,我们提出了SEA-HELM,这是一项全面的语文和文化LLM评估套件,重点是SEA语言,涵盖了五个核心支柱:(1)NLP经典,(2)LLM特定内容,(3)SEA语言学,(4)SEA文化,(5)安全性。SEA-HELM目前支持菲律宾语、印度尼西亚语、泰米尔语、泰语和越南语。我们还介绍了SEA-HELM排行榜,这使得用户能够以系统而用户友好的方式理解模型在多语言和多文化方面的表现。