LLM2D

摘要

arXiv:2502.13576v1 宣告类型: cross 摘要: 在大型基准上评估模型非常耗费资源，尤其是在模型快速演变的时期。现有的高效评估方法通过仅在基准的小且静态的核心集上进行测试来估计目标模型的性能，而该核心集是从源模型的公开评估结果中派生出来的。这些方法依赖于目标模型与源模型具有高预测一致性这一假设。然而，我们证明在实践中这一假设并不成立。为了缓解不一致性问题，我们提出了一种名为TailoredBench的方法，该方法针对每个目标模型进行了定制化的评估。具体而言，首先构建一个全局核心集作为探测器，以识别与每个目标模型最一致的源模型，并采用自适应的源模型选择策略。随后，提出了一种可扩展的K-Medoids聚类算法，将全局核心集扩展为目标模型专属的定制化本地核心集。根据本地核心集的预测，我们通过校准的评估策略获得了目标模型在整个基准上的性能。在跨越300多个模型的5个基准上的全面实验表明，与表现最佳的基线相比，在相同的推理预算下，TailoredBench的准确度估计的平均MAE降低了31.4%，彰显了其强大的有效性和普适性。