LLM2D

摘要

arXiv:2504.03185v1 安全对齐类型：跨领域摘要：泛化对齐是安全部署大型语言模型（LLMs）到现实世界NLP应用中的核心挑战。当前的对齐方法，包括基于人类反馈的强化学习（RLHF），由于其依赖于隐式、事后偏好的原因，往往不能保证在训练分布之外的约束满足。受到在调优之前先整理数据这一范式转变的启发，我们提出了一种新的安全语言对齐框架，该框架将从正面和负面示范中学习自然语言约束作为首要步骤。通过推断特定任务的奖励函数和潜在的约束函数，我们的方法促进了对新颖安全要求的适应，并在领域转换和对抗性输入下实现了稳健的泛化。我们在约束马尔可夫决策过程（CMDP）框架内形式化了该框架，并通过一个基于文本的导航环境进行了验证，展示了在危险区域发生变化时实现安全适应。我们的实验表明，在遵循安全导航路径时，域转移后的违规次数更少，并通过将学习到的约束应用于蒸馏的BERT模型实现了零违规，作为微调技术。这项工作为构建安全关键性和更泛化的LLMs提供了有希望的途径，适用于实际的NLP设置。