LLM2D
PARM:基于偏好意识自回归奖励模型的多目标测试时对齐
PARM: Multi-Objective Test-Time Alignment via Preference-Aware Autoregressive Reward Model
作者: Baijiong Lin, Weisen Jiang, Yuancheng Xu, Hao Chen, Ying-Cong Chen
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06274v1

摘要

arXiv:2505.06274v1 宣布类型: 交叉 摘要: 多目标测试时对齐旨在在推理过程中根据多样化多维用户偏好自适应地调整大型语言模型(LLMs),同时保持LLMs冻结。最近,GenARM(Xu等人,2025)首次独立训练每个偏好维度的自回归奖励模型(ARMs),并且在训练时不相互感知,然后在推理过程中根据用户的偏好向量结合它们的输出,以实现多目标测试时对齐,导致两个关键限制:需要多个ARMs增加了推理成本,并且独立训练ARMs导致引导生成与用户偏好之间的不对齐。为了解决这些问题,我们提出了一种偏好感知ARM(PARM),这是一种在所有偏好维度上统一训练的单个ARM。PARM 使用我们提出的偏好感知双线性低秩适应(PBLoRA),该方法通过双线性形式使ARM有条件于偏好向量,使其能够在推理过程中实现对偏好权衡的精确控制。实验表明,与现有方法相比,PARM 减少了推理成本并且在偏好向量方面实现了更好的对齐。此外,PARM 允许弱到强的指导,使一个小的 PARM 能够引导一个较大且冻结的LLM而无需昂贵的训练,从而在有限的计算资源下实现多目标对齐。代码可以在 https://github.com/Baijiong-Lin/PARM。