LLM2D
函数同伦:通过连续参数平滑离散优化以实现 LLM 越狱攻击
Functional Homotopy: Smoothing Discrete Optimization via Continuous Parameters for LLM Jailbreak Attacks
作者: Zi Wang, Divyam Anshumaan, Ashish Hooda, Yudong Chen, Somesh Jha
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.04234v1

摘要

优化方法广泛应用于深度学习,用于识别和缓解模型的非预期响应。虽然基于梯度的方法在图像模型中已被证明有效,但其在语言模型中的应用受到输入空间离散性的阻碍。本研究提出了一种新颖的优化方法,称为“函数同伦”方法,该方法利用模型训练和输入生成之间的函数对偶性。通过构建一系列易到难的优化问题,我们利用源于已建立的同伦方法的原理迭代地解决这些问题。我们将此方法应用于大型语言模型 (LLM) 的越狱攻击合成,在绕过已建立的安全开源模型(如 Llama-2 和 Llama-3)方面,比现有方法的成功率提高了 20%-30%。