LLM2D

摘要

arXiv:2502.14204v1 Announce Type: cross 摘要：随着大型语言模型的迅速扩展，将模型生成与人类价值观和偏好对齐变得越来越重要。流行的对齐方法，如基于人类反馈的强化学习，已经在指导更具控制力的模型方面取得了显著成功。然而，这些方法需要大量的计算资源，这很不高效，并且需要大量的训练数据来适应人类偏好多样化和包容性，这在实践中是不现实的。这些限制显著限制了任务特定和一般偏好对齐方法的范围和有效性。在本文中，我们引入了一种称为基于原则导向解码的即时偏好对齐方法（OPAD），该方法在推理过程中直接将模型输出与人类偏好对齐，从而消除了微调的需要。我们的方法首先对一个原本不可行的优化问题构建一个替代解，并基于此替代解设计一个原则导向的奖励函数。最终对齐的策略通过最大化这种定制化的奖励来推导，以利用受限策略与其无约束版本之间的差异。OPAD 在推理过程中直接修改模型的预测，确保遵循原则，而无需对模型进行重新训练或微调带来的计算成本。实验表明，OPAD 在通用和个性化对齐任务中都能实现竞争力甚至更优的性能，相对于最先进的基准方法，这展示了其高效性和效果。