摘要
arXiv:2505.03814v1 交叉公告类型
摘要:随着基础模型不断发展,训练好的模型的规模呈指数增长,这为它们的评估带来了重大挑战。当前的评估实践涉及创建越来越大的数据集,以评估大规模语言模型(LLMs)的性能。然而,缺乏系统分析和指导来确定测试数据的充分性或选择合适的测试样本进行评估。本文介绍了一种可验证且成本效益高的LLM评估框架。我们的框架适应不同的评估目标,并输出高概率包含真实值的置信区间。我们使用“测试样本复杂性”来量化需要的测试点数量以进行可验证的评估,并推导出测试样本复杂性的紧密边界。根据开发的理论,我们开发了一种基于分割的算法,命名为Cer-Eval,该算法自适应地选择测试点以最小化LLM评估的成本。现实世界的实验表明,Cer-Eval在各种基准测试中可以节省20%到40%的测试点,同时保持与当前评估过程相当的估计误差水平,并提供95%的信心保证。