LLM2D
HRET:一种自我演化的韩语大模型评估工具包
HRET: A Self-Evolving LLM Evaluation Toolkit for Korean
作者: Hanwool Lee, Soo Yong Kim, Dasol Choi, SangWon Baek, Seunghyeok Hong, Ilgyun Jeong, Inseon Hwang, Naeun Lee, Guijin Son
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.22968v1

摘要

arXiv:2503.22968v1 交叉发布公告类型 摘要:近期韩语大型语言模型(LLMs)的进步促进了众多基准测试和评估方法的发展,然而缺乏统一的评估框架导致了结果不一致且限制了可比性。为解决这一问题,我们推出了HRET Haerae Evaluation Toolkit,这是一个专为韩语LLMs设计的开源、自我进化的评估框架。HRET 统一了多种评估方法,包括基于logit的评分、精确匹配、语言不一致惩罚以及LLM作为评委的评估。其模块化、基于注册表的架构整合了主要基准测试(HAE-RAE Bench、KMMLU、KUDGE、HRM8K)和多个推理后端(vLLM、HuggingFace、OpenAI兼容的端点)。通过自动化的持续进化管道,HRET 为可重复、公平和透明的韩语NLP研究提供了坚实的基础。