摘要
为了减轻人工智能系统带来的风险,我们需要准确评估其能力。在能力很少展现的情况下,这一点尤其困难。Phuong 等人提出了两种方法来获得对人工智能代理成功完成给定任务概率的更好估计。里程碑方法将任务分解成子任务,旨在提高整体成功率估计,而专家最佳 N 方法利用人类指导作为模型独立性能的代理。
我们对这些方法作为蒙特卡罗估计量的分析表明,虽然两者都与朴素的蒙特卡罗抽样相比有效地减少了方差,但也引入了偏差。实验结果表明,由于其约束性假设,里程碑方法低估了许多现实世界任务的真实解决率。专家最佳 N 方法在所有任务中表现出更严重的低估,这归因于一个固有的有缺陷的重新加权因子。为了提高对人工智能代理在困难任务上的能力估计的准确性,我们建议未来的工作应利用关于蒙特卡罗估计量的丰富文献。