LLM2D

摘要

arXiv:2503.22968v2 通知类型: 替换-交叉摘要：近期韩语大规模语言模型（LLMs）的发展激发了众多基准和评估方法的出现，但缺乏标准化的评估框架导致了结果的一致性问题和对比性受限。为了解决这个问题，我们引入了HRET Haerae评估工具包，这是一个专为韩语LLMs定制的开源、自我演化的评估框架。HRET 统一了多种评估方法，包括基于logit的评分、精确匹配、语言一致性惩罚和LLM作为裁判的评估。其模块化、基于注册表的架构整合了主要基准（HAE-RAE Bench、KMMLU、KUDGE、HRM8K）和多种推断后端（vLLM、HuggingFace、OpenAI兼容端点）。通过自动化的持续演化管道，HRET 提供了一个坚实的基础，以实现可再现、公平和透明的韩语NLP研究。