摘要
arXiv:2502.04322v1 安全对齐类型:交叉
摘要:尽管进行了广泛的的安全对齐努力,大型语言模型(LLMs)仍然容易受到引发不良行为的“出狱”攻击。虽然现有研究主要集中在需要技术专长的攻击方法上,但有两个关键问题尚未得到充分探讨:(1)“出狱”响应真的能够帮助普通用户实施有害行为吗?(2)在更常见、简单的与人类-LLM 交互中是否存在安全漏洞?在本文中,我们证明,当LLM响应既可操作又具有信息性时,最有效地促成有害行为——这两种属性在多步、多语言交互中容易被激发。基于这一洞见,我们提出了HarmScore,一种评估LLM响应如何有效促成有害行为的“出狱”度量标准,以及Speak Easy,一个简单的多步、多语言攻击框架。值得注意的是,通过将Speak Easy整合到直接请求和“出狱”基线中,我们在四个安全基准测试中对开源和专有LLMs的平均绝对攻击成功率提高了0.319,在HarmScore上提高了0.426。我们的工作揭示了一个关键但常被忽视的漏洞:恶意用户可以轻易利用常见的交互模式来实现有害意图。