摘要
arXiv:2503.20320v1 类型:交叉
摘要:大型语言模型(LLMs)旨在使其响应与人类价值观保持一致。本研究利用迭代提示技术,其中每次提示在多次迭代中系统地修改和优化,以逐步增强其在破解攻击中的有效性。该技术涉及分析LLMs(包括GPT-3.5、GPT-4、LLaMa2、Vicuna和ChatGLM)的响应模式,使我们能够调整和优化提示以逃避LLMs的伦理和安全约束。说服策略增强了提示的有效性,同时保持与恶意意图的一致性。结果显示,随着攻击提示变得更加完善,攻击成功率(ASR)有所提高,其中GPT4和ChatGLM的最高ASR为90%,而LLaMa2的最低ASR为68%。我们的技术在ASR方面优于基准技术(PAIR和PAP),并在ASR方面与GCG和ArtPrompt具有可比表现。