摘要
arXiv:2504.18530v1 宣讲类型: 新颖
摘要: 可扩展的监督,一种较弱的人工智能系统监督较强系统的过程,被提议作为一种关键策略来控制未来的超级智能系统。然而,尚不清楚可扩展监督本身如何扩展。为了解决这一差距,我们提出了一种框架,该框架将成功监督的概率量化为监督者能力和被监督系统能力的函数。具体而言,该框架将监督建模为能力不匹配的参与者之间的博弈;参与者具有针对监督和欺骗的特定Elo评分,这些评分是其一般智能的分段线性函数,有两个平台对应于任务无能和任务饱和。我们通过修改后的Nim游戏验证了该框架,然后将其应用于四种监督游戏:“黑帮”、“辩论”、“后门代码”和“战争游戏”。对于每种游戏,我们发现量化领域性能如何依赖于一般人工智能系统能力的缩放定律(使用聊天机器人竞技场的Elo评分作为一般能力的代理指标)。然后我们在关于嵌套可扩展监督(NSO)的理论研究基础上建立,这是一种可信模型监督不信任的强大模型的过程,这些强大的模型随后成为下一个步骤中的可信模型。我们确定了NSO成功的情况,并从数值(并在某些情况下从分析)推导出最大化监督成功概率的最佳监督层级数量。在我们的数值示例中,当监督比基线监督者强400点Elo评分的系统时,NSO的成功率低于52%,并且在监督更强的系统时,成功率进一步下降。