摘要
arXiv:2502.08943v1 类别: cross
摘要: 大型语言模型(LLMs)在实际应用中表现出显著的实用性,展现出令人印象深刻的自然语言处理和理解能力。基准评估对于评估LLMs的能力至关重要,因为它们可以提供对其优点和不足的全面评估。然而,当前的评估方法往往通过使用确定性的生成策略或依赖单一的随机样本而忽视了LLMs固有的随机性,导致未考虑的采样偏差和不可靠的基准得分估计。在本文中,我们提出了一种分层统计模型,通过结合基准特性和LLMs的随机性来提供基准测试过程更为全面的表示。我们表明,利用多个生成可以提高基准得分估计的准确性并减少方差。我们还引入了基于正确率的提示级别难度评分 $\mathbb P\left(\text{correct}\right)$,提供对个别提示的细粒度见解。此外,我们创建了一个数据地图,可视化了难度和语义提示,有助于基准构建中的错误检测和质量控制。