LLM2D

摘要

arXiv:2502.04322v1 安全对齐类型：交叉摘要：尽管进行了广泛的的安全对齐努力，大型语言模型（LLMs）仍然容易受到引发不良行为的“出狱”攻击。虽然现有研究主要集中在需要技术专长的攻击方法上，但有两个关键问题尚未得到充分探讨：（1）“出狱”响应真的能够帮助普通用户实施有害行为吗？（2）在更常见、简单的与人类-LLM 交互中是否存在安全漏洞？在本文中，我们证明，当LLM响应既可操作又具有信息性时，最有效地促成有害行为——这两种属性在多步、多语言交互中容易被激发。基于这一洞见，我们提出了HarmScore，一种评估LLM响应如何有效促成有害行为的“出狱”度量标准，以及Speak Easy，一个简单的多步、多语言攻击框架。值得注意的是，通过将Speak Easy整合到直接请求和“出狱”基线中，我们在四个安全基准测试中对开源和专有LLMs的平均绝对攻击成功率提高了0.319，在HarmScore上提高了0.426。我们的工作揭示了一个关键但常被忽视的漏洞：恶意用户可以轻易利用常见的交互模式来实现有害意图。