摘要
arXiv:2502.13131v1 通告类型: 新颖
摘要:理解人类偏好对于改进基础模型和构建个性化AI系统至关重要。然而,偏好是固有地多样化和复杂的,使得传统的奖励模型难以捕捉其全部范围。尽管细粒度的偏好数据有所帮助,但收集这些数据是昂贵且难以扩展的。在本文中,我们介绍了分解奖励模型(DRMs),这是一种新颖的方法,可以从二元比较中提取多样的人类偏好,而无需要求细粒度的注释。我们的关键洞察是将人类偏好表示为向量,并使用主成分分析(PCA)进行分析。通过构建青睐和拒绝响应嵌入差异的数据集,DRMs识别出能够捕捉偏好不同方面的正交基向量。这些分解后的奖励可以灵活地组合以满足不同的用户需求,提供了一种可解释且可扩展的替代传统奖励模型的选择。我们证明了DRMs有效地提取了有意义的偏好维度(例如,有用性、安全性、幽默感),并且可以在无需额外训练的情况下适应新用户。我们的结果突显了DRMs作为个性化和可解释的LLM对齐的强大框架的重要性。