摘要
为了减轻人工智能系统带来的风险,我们需要准确评估其能力。当能力仅在极少数情况下展现时,这一点尤其困难。Phuong 等人提出了两种方法,旨在更好地估计人工智能代理成功完成给定任务的概率。里程碑方法将任务分解为子任务,旨在改进整体成功率估计,而专家最佳 N 方法利用人工指导作为模型独立性能的代理。我们对这些方法作为蒙特卡罗估计量的分析表明,虽然它们与朴素蒙特卡罗采样相比有效地减少了方差,但也引入了偏差。实验结果表明,由于里程碑方法的约束性假设,它低估了许多现实世界任务的真实解决率。专家最佳 N 方法在所有任务中表现出更严重的低估,这归因于其固有的错误重新加权因子。为了提高人工智能代理在困难任务上的能力估计的准确性,我们建议未来的工作应利用关于蒙特卡罗估计量的丰富文献。