LLM2D
基于最优对偶的大语言模型一次性安全对齐
One-Shot Safety Alignment for Large Language Models via Optimal Dualization
作者: Xinmeng Huang, Shuo Li, Edgar Dobriban, Osbert Bastani, Hamed Hassani, Dongsheng Ding
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2405.19544v3

摘要

大型语言模型日益增长的安全问题,迫切需要将其与多样化的人类偏好相协调,以同时增强其有效性和安全性。一种有前景的方法是通过基于人类反馈的强化学习 (RLHF) 来执行安全约束。对于这种受约束的 RLHF,典型的基于拉格朗日的原始-对偶策略优化方法计算成本高且经常不稳定。本文提出了一种对偶化的视角,该视角将受约束的对齐简化为等效的无约束对齐问题。我们通过预优化具有封闭形式的平滑凸对偶函数来实现这一点。此捷径消除了对繁琐的原始-对偶策略迭代的需求,大大减少了计算负担并提高了训练稳定性。我们的策略在基于模型和基于偏好的设置中产生了两种实用算法(分别为 MoCAN 和 PeCAN)。广泛的实验结果证明了我们算法的有效性和优点。