LLM2D
冰山一角:揭示隐藏的基于提示的任务对抗攻击类别
The TIP of the Iceberg: Revealing a Hidden Class of Task-In-Prompt Adversarial Attacks on LLMs
作者: Sergey Berezin, Reza Farahbakhsh, Noel Crespi
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.18626v1

摘要

arXiv:2501.18626v1 类型: cross 摘要: 我们提出了一种针对大模型(LLMs)的新颖类别 Jailbreak 恶意攻击,称为 Task-in-Prompt(TIP)攻击。我们的方法将序列到序列的任务(例如,密码解码、谜语、代码执行)嵌入模型的提示中,以间接生成禁止输入。为了系统地评估这些攻击的有效性,我们引入了 PHRYGE 基准。我们证明,我们的技术成功地绕过了六种最先进的语言模型(包括 GPT-4o 和 LLaMA 3.2)的安全防护措施。我们的发现凸显了当前大模型安全对齐中的关键弱点,并强调了需要更加复杂的防御策略的急迫性。 警告:本文包含仅供研究目的使用的不道德查询示例。