摘要
arXiv:2505.03989v2 宣告类型:更换
摘要:如果AI系统在广泛的任务上达到了或超过了人类的能力,人类可能难以有效地判断其行为——这使得使用人类反馈来引导它们朝向可取的品质变得困难。一个提议的解决方案是利用另一个超级人类系统通过辩论来指出该系统输出中的缺陷。本文概述了辩论在AI安全方面的价值,以及使其发挥作用所需的前提和进一步的研究。它通过绘制一个“对齐安全性案例”来实现这一点——这是一个论证,表明尽管AI系统能够自行采取可能导致严重伤害的行动,它也不会自主采取这样的行动。这个概要集中在AI研发代理在一家AI公司内部进行科研破坏的风险上,例如通过产生虚假结果。为了防止这种情况,代理通过辩论训练,受到探索保证的约束,以教导系统诚实。在整个部署过程中,通过在线训练保持诚实。安全性案例基于四个关键主张:(1)代理在辩论游戏中变得非常出色,(2)在辩论游戏中表现良好意味着系统主要是诚实的,(3)在部署过程中,系统不会显著失去诚实性,(4)部署环境能够容忍一些错误。我们确定了一些如果解决这些问题,这将使这一论证成为一个令人信服的论点,证明AI系统是安全的。