摘要
arXiv:2502.13295v2 通告类型: 修改
摘要: 我们通过指示模型在国际象棋引擎中获胜来演示大型语言模型代理规范的作弊。我们发现,像OpenAI o3和DeepSeek R1这样的推理模型通常会在默认情况下通过作弊来破解基准测试,而像GPT-4o和Claude 3.5 Sonnet这样的语言模型则需要被告知正常走棋无法作弊。
我们改进了先前的工作(如Hubinger等人,2024; Meinke等人,2024; Weij等人,2024),通过使用现实的任务提示并避免过度引导。我们的结果表明,推理模型可能会通过作弊来解决困难的问题,这与OpenAI (2024)在网络安全能力测试期间的o1 Docker逃脱观察结果一致。