LLM2D

摘要

arXiv:2504.08781v1 交叉验证类型：跨验证摘要：随着大规模语言模型（LLMs）的发展，已经提出了许多基准来衡量和比较不同LLMs的能力。然而，由于测试实例的数量庞大以及推理速度较慢，评估LLMs的成本较高。本文旨在探索如何在基于基准中少量采样的测试实例的评估结果的基础上，高效地估计给定基准中模型的真实性能。受推荐系统（RS）中协同过滤（CF）的启发，我们将LLMs视为用户，将测试实例视为项目，并提出了一种两阶段方法。在第一阶段，我们将实例选择视为向用户推荐产品，以选择能够容易区分模型性能的实例。在第二阶段，我们将性能预测视为RS中的评分预测问题，以预测未选择实例中目标LLM的行为。在多个LLMs和数据集上的实验表明，我们的方法可以准确地估计目标模型的性能，同时大幅减少其推理开销。