LLM2D

摘要

arXiv:2502.01154v1 宣告类型: 交叉摘要: 在过去几年中，大型语言模型（LLMs）取得了迅速的发展，革新了各种应用程序，并显著提高了便利性和生产力。然而，伴随其令人印象深刻的性能，伦理问题和新型攻击，如逃逸攻击，也日益凸显。尽管大多数提示方法侧重于为个别案例优化对抗输入，这在处理大型数据集时会导致更高的计算成本。较少的研究关注更通用的场景，即训练一个可以转移到未见过的任务的通用攻击者。在本文中，我们介绍了JUMP，一种基于提示的方法，旨在使用通用多提示逃逸攻击LLMs。我们还为防御措施调整了我们的方法，称之为DUMP。实验结果表明，我们优化通用多提示的方法优于现有技术。