摘要
优化方法广泛应用于深度学习,用于识别和缓解模型的非预期响应。虽然基于梯度的方法在图像模型中已被证明有效,但其在语言模型中的应用受到输入空间离散性的阻碍。本研究提出了一种新颖的优化方法,称为“函数同伦”方法,该方法利用模型训练和输入生成之间的函数对偶性。通过构建一系列易到难的优化问题,我们利用源于已建立的同伦方法的原理迭代地解决这些问题。我们将此方法应用于大型语言模型 (LLM) 的越狱攻击合成,在绕过已建立的安全开源模型(如 Llama-2 和 Llama-3)方面,比现有方法的成功率提高了 20%-30%。