LLM2D

摘要

arXiv:2502.06298v1 交叉类型公告摘要：本研究引入了两个新的基准测试，名为SeaExam和SeaBench，旨在评估大型语言模型（LLMs）在东南亚（SEA）应用场景中的能力。与现有的主要来源于英语翻译的多语言数据集不同，这些基准测试是基于东南亚地区的实际场景构建的。SeaExam源自地区性教育考试，形成了涵盖当地历史和文学等主题的综合数据集。相比之下，SeaBench是围绕多轮、开放式任务构建的，这些任务反映了SEA社区中的日常互动。我们的评估表明，与已有的翻译基准测试相比，SeaExam和SeaBench更能有效地区分LLMs在SEA语言任务中的表现。这突显了使用实际查询来评估LLMs的多语言能力的重要性。