LLM2D
自适应帮助性-危害性对齐与偏好向量
Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors
作者: Ren-Wei Liang, Chin-Ting Hsu, Chan-Hung Yu, Saransh Agrawal, Shih-Cheng Huang, Shang-Tse Chen, Kuan-Hao Huang, Shao-Hua Sun
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20106v1

摘要

arXiv:2504.20106v1 宣介类型: cross 摘要:确保大语言模型(LLMs)既有益又能避免有害是一个关键挑战,因为过于严格的约束可能导致过度拒绝,而过于宽松的模型则面临生成有害内容的风险。现有方法,如基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO),试图在这些权衡中寻求平衡,但会遭受性能冲突、受限的可控性和较差的可扩展性。为了应对这些问题,我们提出了偏好向量这一新颖框架,该框架受到任务算术的启发。我们不是在单一目标中优化多种偏好,而是针对单一偏好分别训练模型,提取行为变化作为偏好向量,并在测试时动态合并它们。这种模块化方法使得细粒度的、用户可控的偏好调整成为可能,并且便于无缝集成新的偏好而无需重新训练。实验结果表明,我们提出的偏好向量框架能够在不增加过度保守性的前提下提高有益性,允许平滑地控制偏好权衡,并支持可扩展的多偏好对齐。