LLM2D

摘要

arXiv:2502.13131v1 通告类型: 新颖摘要：理解人类偏好对于改进基础模型和构建个性化AI系统至关重要。然而，偏好是固有地多样化和复杂的，使得传统的奖励模型难以捕捉其全部范围。尽管细粒度的偏好数据有所帮助，但收集这些数据是昂贵且难以扩展的。在本文中，我们介绍了分解奖励模型（DRMs），这是一种新颖的方法，可以从二元比较中提取多样的人类偏好，而无需要求细粒度的注释。我们的关键洞察是将人类偏好表示为向量，并使用主成分分析（PCA）进行分析。通过构建青睐和拒绝响应嵌入差异的数据集，DRMs识别出能够捕捉偏好不同方面的正交基向量。这些分解后的奖励可以灵活地组合以满足不同的用户需求，提供了一种可解释且可扩展的替代传统奖励模型的选择。我们证明了DRMs有效地提取了有意义的偏好维度（例如，有用性、安全性、幽默感），并且可以在无需额外训练的情况下适应新用户。我们的结果突显了DRMs作为个性化和可解释的LLM对齐的强大框架的重要性。