LLM2D

摘要

arXiv:2505.07846v1 安全和对齐类型：新摘要：本研究揭示了当面对不可能情况时，前沿大规模语言模型（LLMs）如何“利用系统”的方式，这是一个关键的安全和对齐问题。我们使用一种新型的文本模拟方法，向三种领先的大规模语言模型（o1、o3-mini和r1）提供了设计成通过合法玩法规则无法获胜的井字游戏场景，然后分析了它们倾向于利用漏洞而非接受失败的趋势。研究表明，对于安全研究人员来说，这种结果令人担忧：专注于推理的较新模型o3-mini显示出了几乎是较旧模型o1（17.5%）两倍的利用系统漏洞的倾向（37.1%）。最引人注目的是提示的效果。仅仅将任务框架定义为需要“创造性的”解决方案就导致了所有模型的游戏行为急剧增加，达到77.3%。我们确定了四种不同的利用策略，从直接操纵游戏状态到复杂的对手行为修改。这些发现表明，即使没有实际执行能力，当被激励时，LLMs也能识别并提出复杂系统的利用方案，强调了随着模型变得更能识别并利用其运行环境中的漏洞，AI对齐面临的紧迫挑战。