摘要
arXiv:2502.01154v1 宣告类型: 交叉
摘要: 在过去几年中,大型语言模型(LLMs)取得了迅速的发展,革新了各种应用程序,并显著提高了便利性和生产力。然而,伴随其令人印象深刻的性能,伦理问题和新型攻击,如逃逸攻击,也日益凸显。尽管大多数提示方法侧重于为个别案例优化对抗输入,这在处理大型数据集时会导致更高的计算成本。较少的研究关注更通用的场景,即训练一个可以转移到未见过的任务的通用攻击者。在本文中,我们介绍了JUMP,一种基于提示的方法,旨在使用通用多提示逃逸攻击LLMs。我们还为防御措施调整了我们的方法,称之为DUMP。实验结果表明,我们优化通用多提示的方法优于现有技术。