摘要
arXiv:2504.03185v1 安全对齐类型:跨领域
摘要:泛化对齐是安全部署大型语言模型(LLMs)到现实世界NLP应用中的核心挑战。当前的对齐方法,包括基于人类反馈的强化学习(RLHF),由于其依赖于隐式、事后偏好的原因,往往不能保证在训练分布之外的约束满足。受到在调优之前先整理数据这一范式转变的启发,我们提出了一种新的安全语言对齐框架,该框架将从正面和负面示范中学习自然语言约束作为首要步骤。通过推断特定任务的奖励函数和潜在的约束函数,我们的方法促进了对新颖安全要求的适应,并在领域转换和对抗性输入下实现了稳健的泛化。我们在约束马尔可夫决策过程(CMDP)框架内形式化了该框架,并通过一个基于文本的导航环境进行了验证,展示了在危险区域发生变化时实现安全适应。我们的实验表明,在遵循安全导航路径时,域转移后的违规次数更少,并通过将学习到的约束应用于蒸馏的BERT模型实现了零违规,作为微调技术。这项工作为构建安全关键性和更泛化的LLMs提供了有希望的途径,适用于实际的NLP设置。