LLM2D

摘要

arXiv:2502.08943v2 宣告类型：替换交叉摘要：大型语言模型（LLMs）在实际应用中展示了显著的实用性，展现了在自然语言处理和理解方面的出色能力。基准评估对于评估LLMs的能力至关重要，因为它们可以提供对其优势和劣势的全面评估。然而，当前的评估方法经常会忽视LLMs固有的随机性，通过使用确定性生成策略或依赖单一随机样本来进行评估，导致未计及的采样方差和不可靠的基准评分估计。在本文中，我们提出了一种分级统计模型，通过同时考虑基准特性和LLMs的随机性，提供了一个更全面的基准评估过程的表示。我们展示了利用多个生成可以在估计基准评分的准确性上有所改善，并减少方差。我们还引入了$\mathbb P\left(\text{正确}\right)$，这是一个基于正确比例的提示级别难度评分，提供了对单个提示的细微洞察。另外，我们创建了一个数据图，可视化了难度和语义提示，有助于基准构建中的错误检测和质量控制。