摘要
arXiv:2501.18638v1 类型: 交叉学科
摘要: 我们提出了一种模块化管道,用于从高层内容政策自动生成隐蔽的越狱提示,从而增强LLM内容审核。首先,我们通过开发Graph of Attacks with Pruning (GAP)方法来解决查询效率低下和越狱强度低的问题,该方法利用了先前越狱的策略,在使用GPT-3.5的查询量仅为之前算法的54%的情况下,实现了92%的攻击成功率。其次,我们通过使用LLM自动从高层政策生成种子提示来解决冷启动问题。最后,我们展示了这些生成的越狱提示在通过微调PromptGuard模型以检测越狱后,提高了其在Toxic-Chat数据集上的准确率,从5.1%提高到93.89%。