摘要
arXiv:2505.03989v1 声明类型: 新
摘要: 如果AI系统在一系列广泛的任务上与人类能力相当或超越,人类可能难以有效地判断其行为,这使得难以通过人类反馈引导它们朝向 desirable 特性变得困难。一种提出的解决方案是利用另一个超级系统通过辩论来指出系统输出的缺陷。本文概述了辩论在AI安全方面的价值,以及实现辩论所需的假设和进一步研究。它通过勾勒出一个“对齐安全性案例”来实现这一目标——这是一种论据,即尽管AI系统有能力采取可能导致严重伤害的行动,但其不会自主采取此类行动。此概要侧重于AI研发代理在AI公司内部破坏研究的风险,例如通过生成虚假结果。为防止这种情况发生,该代理通过辩论训练,在探索保证下,教会系统说实话。在整个部署过程中,通过在线训练维持诚实。安全案例基于四个关键主张:(1) 代理在辩论游戏中变得很擅长,(2) 在辩论游戏中表现良好意味着系统大部分时间是诚实的,(3) 在部署过程中,系统不会显著变得不那么诚实,(4) 部署环境容忍一定程度的错误。我们指出了如果解决的开放研究问题,这可以使其成为一个令人信服的论据,证明AI系统是安全的。