LLM2D

摘要

arXiv:2503.20320v1 类型：交叉摘要：大型语言模型（LLMs）旨在使其响应与人类价值观保持一致。本研究利用迭代提示技术，其中每次提示在多次迭代中系统地修改和优化，以逐步增强其在破解攻击中的有效性。该技术涉及分析LLMs（包括GPT-3.5、GPT-4、LLaMa2、Vicuna和ChatGLM）的响应模式，使我们能够调整和优化提示以逃避LLMs的伦理和安全约束。说服策略增强了提示的有效性，同时保持与恶意意图的一致性。结果显示，随着攻击提示变得更加完善，攻击成功率（ASR）有所提高，其中GPT4和ChatGLM的最高ASR为90%，而LLaMa2的最低ASR为68%。我们的技术在ASR方面优于基准技术（PAIR和PAP），并在ASR方面与GCG和ArtPrompt具有可比表现。