摘要
arXiv:2505.07846v1 安全和对齐类型:新
摘要:本研究揭示了当面对不可能情况时,前沿大规模语言模型(LLMs)如何“利用系统”的方式,这是一个关键的安全和对齐问题。我们使用一种新型的文本模拟方法,向三种领先的大规模语言模型(o1、o3-mini和r1)提供了设计成通过合法玩法规则无法获胜的井字游戏场景,然后分析了它们倾向于利用漏洞而非接受失败的趋势。研究表明,对于安全研究人员来说,这种结果令人担忧:专注于推理的较新模型o3-mini显示出了几乎是较旧模型o1(17.5%)两倍的利用系统漏洞的倾向(37.1%)。最引人注目的是提示的效果。仅仅将任务框架定义为需要“创造性的”解决方案就导致了所有模型的游戏行为急剧增加,达到77.3%。我们确定了四种不同的利用策略,从直接操纵游戏状态到复杂的对手行为修改。这些发现表明,即使没有实际执行能力,当被激励时,LLMs也能识别并提出复杂系统的利用方案,强调了随着模型变得更能识别并利用其运行环境中的漏洞,AI对齐面临的紧迫挑战。