LLM2D

摘要

arXiv:2502.00580v1 交叉领域类型: cross 摘要: 最近的工作表明，使用重复的随机增强（如大写、标点符号等）进行最佳的N次（BoN）监狱破解对所有的主要大规模语言模型（LLMs）都是有效的。我们发现，BoN论文中成功的全部监狱破解（置信区间为\[99.65\%, 100.00\%\]），以及我们在复制实验中成功的99.8%的监狱破解（置信区间为\[99.28\%, 99.98\%\]），都被我们的“防御黑暗提示”（DATDP）方法阻止了。DATDP算法通过反复利用评估LLM来评估提示是否具有危险或操控行为——不同于其他一些方法，DATDP还明确地寻找监狱破解的尝试——直到生成一个稳健的安全评级。即使在使用较小的LLM（如Claude和LLaMa-3-8B-instruct）来驱动评估时，这一成功仍然持续存在。这些结果表明，尽管语言模型对输入的看似无害的改变非常敏感，它们似乎也能够成功地评估这些输入的危险性。因此，可以廉价地将DATDP的变体添加到生成式AI系统中，以立即显著提高安全性。