LLM2D

摘要

arXiv:2504.07749v1 评测类型: 多语言交叉评测摘要：本文介绍了NorEval，这是一种新的全面的评估套件，用于大规模标准化评估挪威生成语言模型（LMs）。NorEval包含24个高质量的人工创建数据集——其中五个数据集是从头开始创建的。与现有的挪威语基准不同，NorEval涵盖了广泛的任务类别，旨在针对挪威语理解和生成，建立了人类基准，并且关注挪威语言的两个官方书面标准：Bokmål和Nynorsk。我们所有的数据集以及超过100个人工撰写的提示都整合到了LM评估工具包中，确保了评估的灵活性和可再现性。我们描述了NorEval的设计，并展示了在各种场景下对19个开源预训练和指令调优的挪威语LMs进行基准测试的结果。我们的基准、评估框架和标注材料都已公开。