摘要
arXiv:2410.04234v2 更新类型: 替换-交叉
摘要:优化方法在深度学习中广泛用于识别和缓解模型的不良响应。尽管梯度基方法在图像模型中证明了有效性,但由于输入空间的离散性,它们应用于语言模型时受到了阻碍。本研究介绍了一种新的优化方法,称为“功能性同伦”方法,该方法利用了模型训练与输入生成之间的功能性对偶性。通过构建一系列从易到难的优化问题,我们利用已建立的同伦方法的原则,逐步解决这些问题。我们将这种方法应用于大型语言模型(LLM)的牢笼突破攻击合成,相较于现有方法,在规避已建立的安全开源模型(如Llama-2和Llama-3)方面,成功率提高了20%-30%。