LLM2D
HRET: 一种自我进化的韩语大模型评估工具包
HRET: A Self-Evolving LLM Evaluation Toolkit for Korean
作者: Hanwool Lee, Soo Yong Kim, Dasol Choi, SangWon Baek, Seunghyeok Hong, Ilgyun Jeong, Inseon Hwang, Naeun Lee, Guijin Son
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2503.22968v2

摘要

arXiv:2503.22968v2 通知类型: 替换-交叉 摘要:近期韩语大规模语言模型(LLMs)的发展激发了众多基准和评估方法的出现,但缺乏标准化的评估框架导致了结果的一致性问题和对比性受限。为了解决这个问题,我们引入了HRET Haerae评估工具包,这是一个专为韩语LLMs定制的开源、自我演化的评估框架。HRET 统一了多种评估方法,包括基于logit的评分、精确匹配、语言一致性惩罚和LLM作为裁判的评估。其模块化、基于注册表的架构整合了主要基准(HAE-RAE Bench、KMMLU、KUDGE、HRM8K)和多种推断后端(vLLM、HuggingFace、OpenAI兼容端点)。通过自动化的持续演化管道,HRET 提供了一个坚实的基础,以实现可再现、公平和透明的韩语NLP研究。