LLM2D
NorEval: 一项挪威语理解与生成评估基准
NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark
作者: Vladislav Mikhailov, Tita Enstad, David Samuel, Hans Christian Farseth{\aa}s, Andrey Kutuzov, Erik Velldal, Lilja {\O}vrelid
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07749v1

摘要

arXiv:2504.07749v1 评测类型: 多语言交叉评测 摘要:本文介绍了NorEval,这是一种新的全面的评估套件,用于大规模标准化评估挪威生成语言模型(LMs)。NorEval包含24个高质量的人工创建数据集——其中五个数据集是从头开始创建的。与现有的挪威语基准不同,NorEval涵盖了广泛的任务类别,旨在针对挪威语理解和生成,建立了人类基准,并且关注挪威语言的两个官方书面标准:Bokmål和Nynorsk。我们所有的数据集以及超过100个人工撰写的提示都整合到了LM评估工具包中,确保了评估的灵活性和可再现性。我们描述了NorEval的设计,并展示了在各种场景下对19个开源预训练和指令调优的挪威语LMs进行基准测试的结果。我们的基准、评估框架和标注材料都已公开。