LLM2D

摘要

arXiv:2501.18626v3 安全类型: replace-cross 摘要: 我们提出了一种针对大型语言模型（LLM）的新颖类别 jailbreak 恶意攻击，称为任务在提示（Task-in-Prompt, TIP）攻击。我们提出的方法将序列到序列任务（例如，密码解码、谜语、代码执行）嵌入到模型的提示中，以间接生成禁止输入。为了系统地评估这些攻击的有效性，我们引入了PHRYGE基准。我们证明了我们的技术成功地绕过了六种最先进的语言模型（包括GPT-4o和LLaMA 3.2）的安全防护措施。我们的发现强调了当前LLM安全对齐中的关键薄弱环节，并突显了对更高级防御策略的迫切需求。警告：本文包含仅供研究用途的不道德查询示例。