LLM2D

摘要

arXiv:2501.18626v2 通告类型: 跨域摘要: 我们提出了一种针对大规模语言模型 (LLM) 的新颖类别 Jailbreak 对抗攻击，称为 Task-in-Prompt (TIP) 攻击。我们的方法将在序列到序列任务（例如，密码解码、谜语、代码执行）嵌入到模型的提示中，以间接生成禁止输入。为了系统地评估这些攻击的有效性，我们引入了 PHRYGE 基准。我们证明，我们的技术成功地绕过了六种最先进的语言模型（包括 GPT-4o 和 LLaMA 3.2）的安全防护措施。我们的研究结果突显了当前 LLM 安全对齐中的关键弱点，并强调了需要更多复杂的防御策略的迫切性。警告：本文包含仅供研究目的使用的不道德询问示例。