摘要
尽管将大型语言模型 (LLMs) 与人类偏好对齐的学习取得了显著成功,但将这些模型与不同的用户偏好对齐,在保留先前知识方面提出了进一步的挑战。本文考察了个性化偏好优化对 LLMs 的影响,揭示了知识损失的程度随偏好异质性的变化而显著不同。尽管以前的方法利用了参考模型和策略模型之间的 KL 约束,但我们观察到它们在面对个性化偏好时无法维持一般知识和对齐。为此,我们引入了基于基础的偏好优化 (BAPO),这是一种简单但有效的方法,它利用参考模型的初始响应来减轻遗忘,同时适应个性化对齐。BAPO 有效地适应了不同的用户偏好,同时对全局知识或一般对齐的影响最小。我们的实验证明了 BAPO 在各种设置中的有效性。