LLM2D

摘要

arXiv:2410.04234v2 更新类型: 替换-交叉摘要：优化方法在深度学习中广泛用于识别和缓解模型的不良响应。尽管梯度基方法在图像模型中证明了有效性，但由于输入空间的离散性，它们应用于语言模型时受到了阻碍。本研究介绍了一种新的优化方法，称为“功能性同伦”方法，该方法利用了模型训练与输入生成之间的功能性对偶性。通过构建一系列从易到难的优化问题，我们利用已建立的同伦方法的原则，逐步解决这些问题。我们将这种方法应用于大型语言模型（LLM）的牢笼突破攻击合成，相较于现有方法，在规避已建立的安全开源模型（如Llama-2和Llama-3）方面，成功率提高了20%-30%。