LLM2D

摘要

大型语言模型日益增长的安全问题，迫切需要将其与多样化的人类偏好相协调，以同时增强其有效性和安全性。一种有前景的方法是通过基于人类反馈的强化学习 (RLHF) 来执行安全约束。对于这种受约束的 RLHF，典型的基于拉格朗日的原始-对偶策略优化方法计算成本高且经常不稳定。本文提出了一种对偶化的视角，该视角将受约束的对齐简化为等效的无约束对齐问题。我们通过预优化具有封闭形式的平滑凸对偶函数来实现这一点。此捷径消除了对繁琐的原始-对偶策略迭代的需求，大大减少了计算负担并提高了训练稳定性。我们的策略在基于模型和基于偏好的设置中产生了两种实用算法（分别为 MoCAN 和 PeCAN）。广泛的实验结果证明了我们算法的有效性和优点。