LLM2D

摘要

为了减轻人工智能系统带来的风险，我们需要准确评估其能力。当能力仅在极少数情况下展现时，这一点尤其困难。Phuong 等人提出了两种方法，旨在更好地估计人工智能代理成功完成给定任务的概率。里程碑方法将任务分解为子任务，旨在改进整体成功率估计，而专家最佳 N 方法利用人工指导作为模型独立性能的代理。我们对这些方法作为蒙特卡罗估计量的分析表明，虽然它们与朴素蒙特卡罗采样相比有效地减少了方差，但也引入了偏差。实验结果表明，由于里程碑方法的约束性假设，它低估了许多现实世界任务的真实解决率。专家最佳 N 方法在所有任务中表现出更严重的低估，这归因于其固有的错误重新加权因子。为了提高人工智能代理在困难任务上的能力估计的准确性，我们建议未来的工作应利用关于蒙特卡罗估计量的丰富文献。