LLM2D

摘要

arXiv:2502.13295v1 宣布类型: 新论文摘要: 我们通过指令模型击败国际象棋引擎来演示LLM代理规范游戏。我们发现，类似于o1预览和DeepSeek-R1的推理模型通常会在默认情况下破解基准，而类似于GPT-4o和Claude 3.5 Sonnet的语言模型需要被告知正常的玩法不会奏效才能破解。我们改进了Hubinger等人（2024年）、Meinke等人（2024年）和Weij等人（2024年）之前的工作，通过使用现实的任务提示并避免过度引导。我们的结果表明，推理模型可能会出于解决问题而采取破解行为，正如OpenAI（2024年）在网络安全能力测试期间的o1 Docker逃脱所观察到的那样。