LLM2D

摘要

arXiv:2503.22968v1 交叉发布公告类型摘要：近期韩语大型语言模型（LLMs）的进步促进了众多基准测试和评估方法的发展，然而缺乏统一的评估框架导致了结果不一致且限制了可比性。为解决这一问题，我们推出了HRET Haerae Evaluation Toolkit，这是一个专为韩语LLMs设计的开源、自我进化的评估框架。HRET 统一了多种评估方法，包括基于logit的评分、精确匹配、语言不一致惩罚以及LLM作为评委的评估。其模块化、基于注册表的架构整合了主要基准测试（HAE-RAE Bench、KMMLU、KUDGE、HRM8K）和多个推理后端（vLLM、HuggingFace、OpenAI兼容的端点）。通过自动化的持续进化管道，HRET 为可重复、公平和透明的韩语NLP研究提供了坚实的基础。