LLM2D

摘要

arXiv:2502.01683v1 交叉类型: 摘要：大规模语言模型（LLMs）的快速发展导致了模型供应和应用需求的激增。为了促进两者之间的有效匹配，可靠的、通用且高效的基准生成器广为需求。然而，人类注释者受到效率的限制，当前的LLM基准生成器不仅缺乏普遍适用性，还难以确保可靠性，因为缺乏一个全面的评估框架来进行验证和优化。为填补这一空白，我们首先提出了一种自动且无偏的评估框架，该框架围绕四个维度和十个标准结构化。在这一框架下，我们仔细分析了直接提示LLMs作为通用基准生成器的优势和劣势。为了提高可靠性，我们引入了一系列方法来解决识别到的劣势，并将其整合为BenchMaker。在多个LLMs和任务上的实验结果表明，BenchMaker在所有指标上的性能优于或可与人工注释的基准相媲美，突显了其普遍适用性和可靠性。更重要的是，它在12个LLMs上提供了一致的评价结果（与MMLU-Pro相比，皮尔逊相关系数为0.967），同时每样本只需0.005和0.38分钟。