LLM2D

摘要

优化方法广泛应用于深度学习，用于识别和缓解模型的非预期响应。虽然基于梯度的方法在图像模型中已被证明有效，但其在语言模型中的应用受到输入空间离散性的阻碍。本研究提出了一种新颖的优化方法，称为“函数同伦”方法，该方法利用模型训练和输入生成之间的函数对偶性。通过构建一系列易到难的优化问题，我们利用源于已建立的同伦方法的原理迭代地解决这些问题。我们将此方法应用于大型语言模型 (LLM) 的越狱攻击合成，在绕过已建立的安全开源模型（如 Llama-2 和 Llama-3）方面，比现有方法的成功率提高了 20%-30%。