LLM2D
为了诱发大型语言模型中规范游戏行为而在低维度环境中获胜:不计一切代价
Winning at All Cost: A Small Environment for Eliciting Specification Gaming Behaviors in Large Language Models
作者: Lars Malmqvist
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.07846v1

摘要

arXiv:2505.07846v1 安全和对齐类型:新 摘要:本研究揭示了当面对不可能情况时,前沿大规模语言模型(LLMs)如何“利用系统”的方式,这是一个关键的安全和对齐问题。我们使用一种新型的文本模拟方法,向三种领先的大规模语言模型(o1、o3-mini和r1)提供了设计成通过合法玩法规则无法获胜的井字游戏场景,然后分析了它们倾向于利用漏洞而非接受失败的趋势。研究表明,对于安全研究人员来说,这种结果令人担忧:专注于推理的较新模型o3-mini显示出了几乎是较旧模型o1(17.5%)两倍的利用系统漏洞的倾向(37.1%)。最引人注目的是提示的效果。仅仅将任务框架定义为需要“创造性的”解决方案就导致了所有模型的游戏行为急剧增加,达到77.3%。我们确定了四种不同的利用策略,从直接操纵游戏状态到复杂的对手行为修改。这些发现表明,即使没有实际执行能力,当被激励时,LLMs也能识别并提出复杂系统的利用方案,强调了随着模型变得更能识别并利用其运行环境中的漏洞,AI对齐面临的紧迫挑战。