LLM2D
移除策略评估:语言模型能否无状态地制定策略以颠覆控制协议?
Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols?
作者: Alex Mallen, Charlie Griffin, Misha Wagner, Alessandro Abate, Buck Shlegeris
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2412.12480v3

摘要

arXiv:2412.12480v3 宣告类型: replace-cross 摘要:AI控制协议是一种旨在有用地部署AI系统,并防止AI故意造成某些不可接受结果的计划。本文探讨了在不共享上下文间记忆的情况下,AI系统如何生成并执行其自身的策略,以颠覆控制协议。完成这一目标时,AI系统可能需要在每个上下文中可靠地生成最优计划,以校准概率采取行动,并在不通信的情况下与其他自身实例协调计划。我们开发了Subversion Strategy Eval这一包含八个环境的套餐,涵盖了多种协议和战略能力,并提供六个集中的功能以单独隔离这些能力。我们使用Inspection-AI实现评估,并开源发布。我们评估了Claude 3.5模型及其仅提供帮助版本,以及OpenAI推理模型。在不共享上下文间记忆的情况下,没有模型在策略上表现出显著的能力以颠覆控制协议。然而,提供给模型额外的功能,例如在上下文之间共享计划的能力,可以显著提高性能。我们希望我们的评估能够作为模型是否能够颠覆控制协议的领先指标,并且能够缓解AI控制评估中最坏情况假设,即完美战略能力的整体假设。