LLM2D
LLM 动力基准工厂:可靠、通用且高效
LLM-Powered Benchmark Factory: Reliable, Generic, and Efficient
作者: Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Yueqi Zhang, Jiayi Shi, Chuyi Tan, Boyuan Pan, Yao Hu, Kan Li
发布日期: 2/5/2025
arXiv ID: 2502.01683

摘要

arXiv:2502.01683v1 评价类型:交叉学科 摘要:大型语言模型(LLMs)的快速进展导致了模型供应和应用需求的激增。为了促进它们之间的有效匹配,广泛需要可靠的、通用且高效的基准生成器。然而,人工注释员受到效率的限制,当前的LLM基准生成器不仅缺乏通用性,而且在可靠性方面也存在不足,因为它们缺乏一个全面的评估框架来进行验证和优化。为弥补这一缺口,我们首先提出了一种自动且无偏的评估框架,围绕四个维度和十个标准进行构建。在这一框架下,我们仔细分析了直接促使LLMs成为通用基准生成器的优势和劣势。为了提高可靠性,我们引入了一系列方法来解决已识别的劣势,并将其整合为BenchMaker。在多个LLM和任务的实验中,BenchMaker在所有指标上都取得了优于或可比于人工注释基准的表现,突显了其通用性和可靠性。更重要的是,它在12个LLM上的评估结果表现出高度一致(与MMLU-Pro的皮尔逊相关系数为0.967),而每样本只需要0.005和0.38分钟。