LLM2D
在推理模型中展示规范游戏行为
Demonstrating specification gaming in reasoning models
作者: Alexander Bondarenko, Denis Volk, Dmitrii Volkov, Jeffrey Ladish
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13295v1

摘要

arXiv:2502.13295v1 宣布类型: 新论文 摘要: 我们通过指令模型击败国际象棋引擎来演示LLM代理规范游戏。我们发现,类似于o1预览和DeepSeek-R1的推理模型通常会在默认情况下破解基准,而类似于GPT-4o和Claude 3.5 Sonnet的语言模型需要被告知正常的玩法不会奏效才能破解。 我们改进了Hubinger等人(2024年)、Meinke等人(2024年)和Weij等人(2024年)之前的工作,通过使用现实的任务提示并避免过度引导。我们的结果表明,推理模型可能会出于解决问题而采取破解行为,正如OpenAI(2024年)在网络安全能力测试期间的o1 Docker逃脱所观察到的那样。