摘要
arXiv:2502.00580v1 交叉领域类型: cross
摘要: 最近的工作表明,使用重复的随机增强(如大写、标点符号等)进行最佳的N次(BoN)监狱破解对所有的主要大规模语言模型(LLMs)都是有效的。我们发现,BoN论文中成功的全部监狱破解(置信区间为\[99.65\%, 100.00\%\]),以及我们在复制实验中成功的99.8%的监狱破解(置信区间为\[99.28\%, 99.98\%\]),都被我们的“防御黑暗提示”(DATDP)方法阻止了。DATDP算法通过反复利用评估LLM来评估提示是否具有危险或操控行为——不同于其他一些方法,DATDP还明确地寻找监狱破解的尝试——直到生成一个稳健的安全评级。即使在使用较小的LLM(如Claude和LLaMa-3-8B-instruct)来驱动评估时,这一成功仍然持续存在。这些结果表明,尽管语言模型对输入的看似无害的改变非常敏感,它们似乎也能够成功地评估这些输入的危险性。因此,可以廉价地将DATDP的变体添加到生成式AI系统中,以立即显著提高安全性。