摘要
arXiv:2502.08943v2 宣告类型:替换交叉
摘要:大型语言模型(LLMs)在实际应用中展示了显著的实用性,展现了在自然语言处理和理解方面的出色能力。基准评估对于评估LLMs的能力至关重要,因为它们可以提供对其优势和劣势的全面评估。然而,当前的评估方法经常会忽视LLMs固有的随机性,通过使用确定性生成策略或依赖单一随机样本来进行评估,导致未计及的采样方差和不可靠的基准评分估计。在本文中,我们提出了一种分级统计模型,通过同时考虑基准特性和LLMs的随机性,提供了一个更全面的基准评估过程的表示。我们展示了利用多个生成可以在估计基准评分的准确性上有所改善,并减少方差。我们还引入了$\mathbb P\left(\text{正确}\right)$,这是一个基于正确比例的提示级别难度评分,提供了对单个提示的细微洞察。另外,我们创建了一个数据图,可视化了难度和语义提示,有助于基准构建中的错误检测和质量控制。