LLM2D
基于原则引导解码的即时偏好对齐
On-the-fly Preference Alignment via Principle-Guided Decoding
作者: Mingye Zhu, Yi Liu, Lei Zhang, Junbo Guo, Zhendong Mao
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14204v1

摘要

arXiv:2502.14204v1 Announce Type: cross 摘要:随着大型语言模型的迅速扩展,将模型生成与人类价值观和偏好对齐变得越来越重要。流行的对齐方法,如基于人类反馈的强化学习,已经在指导更具控制力的模型方面取得了显著成功。然而,这些方法需要大量的计算资源,这很不高效,并且需要大量的训练数据来适应人类偏好多样化和包容性,这在实践中是不现实的。这些限制显著限制了任务特定和一般偏好对齐方法的范围和有效性。在本文中,我们引入了一种称为基于原则导向解码的即时偏好对齐方法(OPAD),该方法在推理过程中直接将模型输出与人类偏好对齐,从而消除了微调的需要。我们的方法首先对一个原本不可行的优化问题构建一个替代解,并基于此替代解设计一个原则导向的奖励函数。最终对齐的策略通过最大化这种定制化的奖励来推导,以利用受限策略与其无约束版本之间的差异。OPAD 在推理过程中直接修改模型的预测,确保遵循原则,而无需对模型进行重新训练或微调带来的计算成本。实验表明,OPAD 在通用和个性化对齐任务中都能实现竞争力甚至更优的性能,相对于最先进的基准方法,这展示了其高效性和效果。