LLM2D

摘要

arXiv:2406.15599v2 通告类型: 替换交叉摘要：确保人工智能模型与人类价值观一致对于其安全性和功能至关重要。基于人类反馈的强化学习（RLHF）利用人类偏好来实现这种一致性。然而，当偏好来自于多样化的群体时，奖励的点估计可能会导致次优性能或特定群体的不公平。我们提出了帕累托最优偏好学习（POPL），它通过将分歧的群体偏好作为具有潜在权衡的目标来实现多元一致，目标是偏好数据集上的帕累托最优策略。POPL 使用列希凯斯选择，这是一种迭代过程，选择多样且帕累托最优的解决方案。我们的理论和实证评估表明，POPL 在学习奖励函数集和策略方面优于基线方法，能够有效满足不具有群体数量或成员标签的群体的需求。我们在无状态偏好学习、Minigrid RL 域、MetaWorld 机器人基准以及大型语言模型（LLM）微调中验证了 POPL 的性能。我们展示了 POPL 也可以作为优化特定群体公平性概念的技术的基础，确保安全和平等的人工智能模型一致性。