摘要
大型语言模型 (LLM) 的最新进展集中在通过多目标偏好对齐来与异质的人类期望和价值观保持一致。然而,现有方法依赖于策略模型参数,这需要对每个新的策略模型重复其对齐算法,成本很高,而且由于其静态对齐目标,它们无法扩展到看不见的目标。在这项工作中,我们提出了元目标对齐器 (MetaAligner),这是第一个用于多目标偏好对齐的策略无关且可泛化的 方法。MetaAligner 将多目标对齐建模为三个阶段:(1)动态目标重构算法重新组织传统的对齐数据集,以监督模型在不同目标之间执行灵活对齐;(2)条件弱到强校正范式将固定策略模型的弱输出对齐到更接近强输出,在相应的对齐目标中具有更高的偏好,从而能够在任何策略模型上进行即插即用推断,这显着降低了训练成本并促进了对闭源策略模型的对齐;(3)可泛化推断方法通过更新提示中的文本描述来灵活调整目标目标,从而促进对看不见的目标进行可泛化对齐。实验结果表明,MetaAligner 在 10 个最先进的策略模型上实现了多目标对齐的显著和平衡的改进,与之前的对齐方法相比,节省了高达 93.63% 的 GPU 训练时间。该模型还有效地对齐了看不见的目标,标志着朝着可泛化的多目标偏好对齐迈出的第一步。