摘要
arXiv:2412.12480v4 宣布类型: 替换-交叉
摘要:AI控制协议是一种旨在有用地部署AI系统的计划,旨在防止AI故意造成某些不可接受的结果。本文探讨了AI系统在不共享上下文间内存(即,无状态操作)的情况下,如何生成和执行其自身的策略以规避控制协议。为此,AI系统可能需要在每个上下文中可靠地生成最优计划,以校准的概率执行行动,并在不通信的情况下与其他自身的实例协调计划。我们开发了Subversion Strategy Eval套件,该套件包含八个环境,涵盖了各种协议和策略能力,并提供了六组功能,以帮助隔离各个能力。我们在Inspection-AI中实现了评估并开源了该套件。我们评估了Claude 3.5模型,包括仅限助益版本,以及OpenAI推理模型。这些模型在无状态规避控制协议方面未表现出显著的策略能力。然而,为模型提供额外的功能,例如在各个上下文间共享计划,可以显著提高性能。我们希望我们的评估能够作为模型具备规避控制协议能力的领先指标,并且也会放松AI控制评估中在最坏情况下的全面策略能力假设。