LLM2D

摘要

arXiv:2502.01683v1 评价类型：交叉学科摘要：大型语言模型（LLMs）的快速进展导致了模型供应和应用需求的激增。为了促进它们之间的有效匹配，广泛需要可靠的、通用且高效的基准生成器。然而，人工注释员受到效率的限制，当前的LLM基准生成器不仅缺乏通用性，而且在可靠性方面也存在不足，因为它们缺乏一个全面的评估框架来进行验证和优化。为弥补这一缺口，我们首先提出了一种自动且无偏的评估框架，围绕四个维度和十个标准进行构建。在这一框架下，我们仔细分析了直接促使LLMs成为通用基准生成器的优势和劣势。为了提高可靠性，我们引入了一系列方法来解决已识别的劣势，并将其整合为BenchMaker。在多个LLM和任务的实验中，BenchMaker在所有指标上都取得了优于或可比于人工注释基准的表现，突显了其通用性和可靠性。更重要的是，它在12个LLM上的评估结果表现出高度一致（与MMLU-Pro的皮尔逊相关系数为0.967），而每样本只需要0.005和0.38分钟。