摘要
arXiv:2502.06298v1 交叉类型公告
摘要:本研究引入了两个新的基准测试,名为SeaExam和SeaBench,旨在评估大型语言模型(LLMs)在东南亚(SEA)应用场景中的能力。与现有的主要来源于英语翻译的多语言数据集不同,这些基准测试是基于东南亚地区的实际场景构建的。SeaExam源自地区性教育考试,形成了涵盖当地历史和文学等主题的综合数据集。相比之下,SeaBench是围绕多轮、开放式任务构建的,这些任务反映了SEA社区中的日常互动。我们的评估表明,与已有的翻译基准测试相比,SeaExam和SeaBench更能有效地区分LLMs在SEA语言任务中的表现。这突显了使用实际查询来评估LLMs的多语言能力的重要性。