LLM2D

摘要

arXiv:2504.18530v2 宣告类型: 替换摘要：可扩展的监督，即较弱的人工智能系统监督较强的人工智能系统的过程，已经提出作为一种控制未来超级智能系统的关键策略。然而，仍不清楚可扩展的监督如何实现可扩展性。为了解决这一问题，我们提出了一个框架，该框架以监督者和被监督系统的能力为函数，量化成功监督的概率。具体而言，我们的框架将监督建模为技能差异较大的玩家之间的博弈；这些玩家具有特定于监督的Elo评分，该评分是其一般智能的分段线性函数，有两个平台分别对应任务无能和任务饱和。我们使用修改后的Nim游戏对框架进行了验证，然后将其应用于四个监督游戏：黑帮、辩论、后门代码和军备竞赛。对于每个游戏，我们找到近似描述通用人工智能系统能力与领域性能之间关系的缩放法则。然后，我们基于这些发现，在对嵌套可扩展监督（NSO）进行了理论研究，NSO是一个被信任的模型监督不被信任的更强模型的过程，这些更强的模型在下一个步骤中成为被信任的模型。我们确定了NSO成功所需的条件，并通过数值方法（在某些情况下通过解析方法）推导出最大化成功监督概率的最佳监督层级数。我们还将我们的理论应用于四个监督游戏，发现一般Elo差距为400时，NSO的成功率为：黑帮13.5%、辩论51.7%、后门代码10.0%、军备竞赛9.4%；当监督更强的系统时，这些成功率进一步下降。