LLM2D
在破解大型语言模型中迭代提示与说服技巧的使用
Iterative Prompting with Persuasion Skills in Jailbreaking Large Language Models
作者: Shih-Wen Ke, Guan-Yu Lai, Guo-Lin Fang, Hsi-Yuan Kao
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.20320v1

摘要

arXiv:2503.20320v1 类型:交叉 摘要:大型语言模型(LLMs)旨在使其响应与人类价值观保持一致。本研究利用迭代提示技术,其中每次提示在多次迭代中系统地修改和优化,以逐步增强其在破解攻击中的有效性。该技术涉及分析LLMs(包括GPT-3.5、GPT-4、LLaMa2、Vicuna和ChatGLM)的响应模式,使我们能够调整和优化提示以逃避LLMs的伦理和安全约束。说服策略增强了提示的有效性,同时保持与恶意意图的一致性。结果显示,随着攻击提示变得更加完善,攻击成功率(ASR)有所提高,其中GPT4和ChatGLM的最高ASR为90%,而LLaMa2的最低ASR为68%。我们的技术在ASR方面优于基准技术(PAIR和PAP),并在ASR方面与GCG和ArtPrompt具有可比表现。