摘要
arXiv:2501.18626v3 声称类型: replace-cross
摘要:我们提出了一种针对大型语言模型(LLMs)的新颖类别攻击,称为任务在提示(TIP)攻击。我们的方法将序列到序列任务(例如,密码解码、谜语、代码执行)嵌入模型的提示中,以间接生成禁止输入。为了系统地评估这些攻击的有效性,我们引入了PHRYGE基准。我们证明,我们的技术成功地绕过了六种最先进的语言模型(包括GPT-4o和LLaMA 3.2)的安全措施。我们的研究表明,当前LLM安全对齐存在关键弱点,并强调了需要更多复杂防御策略的紧迫需求。
警告:本文包含仅用于研究目的的不道德询问示例。