LLM2D
LLM 助力的基准工厂:可靠、通用且高效
LLM-Powered Benchmark Factory: Reliable, Generic, and Efficient
作者: Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Yueqi Zhang, Jiayi Shi, Chuyi Tan, Boyuan Pan, Yao Hu, Kan Li
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01683v1

摘要

arXiv:2502.01683v1 交叉类型: 摘要:大规模语言模型(LLMs)的快速发展导致了模型供应和应用需求的激增。为了促进两者之间的有效匹配,可靠的、通用且高效的基准生成器广为需求。然而,人类注释者受到效率的限制,当前的LLM基准生成器不仅缺乏普遍适用性,还难以确保可靠性,因为缺乏一个全面的评估框架来进行验证和优化。为填补这一空白,我们首先提出了一种自动且无偏的评估框架,该框架围绕四个维度和十个标准结构化。在这一框架下,我们仔细分析了直接提示LLMs作为通用基准生成器的优势和劣势。为了提高可靠性,我们引入了一系列方法来解决识别到的劣势,并将其整合为BenchMaker。在多个LLMs和任务上的实验结果表明,BenchMaker在所有指标上的性能优于或可与人工注释的基准相媲美,突显了其普遍适用性和可靠性。更重要的是,它在12个LLMs上提供了一致的评价结果(与MMLU-Pro相比,皮尔逊相关系数为0.967),同时每样本只需0.005和0.38分钟。