LLM2D
帕累托最优的学习从隐藏上下文的偏好中
Pareto-Optimal Learning from Preferences with Hidden Context
作者: Ryan Bahlous-Boldi, Li Ding, Lee Spector, Scott Niekum
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2406.15599v2

摘要

arXiv:2406.15599v2 通告类型: 替换交叉 摘要:确保人工智能模型与人类价值观一致对于其安全性和功能至关重要。基于人类反馈的强化学习(RLHF)利用人类偏好来实现这种一致性。然而,当偏好来自于多样化的群体时,奖励的点估计可能会导致次优性能或特定群体的不公平。我们提出了帕累托最优偏好学习(POPL),它通过将分歧的群体偏好作为具有潜在权衡的目标来实现多元一致,目标是偏好数据集上的帕累托最优策略。POPL 使用列希凯斯选择,这是一种迭代过程,选择多样且帕累托最优的解决方案。我们的理论和实证评估表明,POPL 在学习奖励函数集和策略方面优于基线方法,能够有效满足不具有群体数量或成员标签的群体的需求。我们在无状态偏好学习、Minigrid RL 域、MetaWorld 机器人基准以及大型语言模型(LLM)微调中验证了 POPL 的性能。我们展示了 POPL 也可以作为优化特定群体公平性概念的技术的基础,确保安全和平等的人工智能模型一致性。