LLM2D

摘要

arXiv:2501.18638v1 类型: 交叉学科摘要: 我们提出了一种模块化管道，用于从高层内容政策自动生成隐蔽的越狱提示，从而增强LLM内容审核。首先，我们通过开发Graph of Attacks with Pruning (GAP)方法来解决查询效率低下和越狱强度低的问题，该方法利用了先前越狱的策略，在使用GPT-3.5的查询量仅为之前算法的54%的情况下，实现了92%的攻击成功率。其次，我们通过使用LLM自动从高层政策生成种子提示来解决冷启动问题。最后，我们展示了这些生成的越狱提示在通过微调PromptGuard模型以检测越狱后，提高了其在Toxic-Chat数据集上的准确率，从5.1%提高到93.89%。