摘要
arXiv:2310.15288v2 通知类型: 修改
摘要:从人类反馈中进行强化学习(RLHF)使机器学习系统能够从人类反馈中学习目标。这些系统的核心局限在于,它们假定所有反馈都来自单一的人类教师,尽管实际上查询了多个不同的教师。我们提出了隐藏效用多臂-bandit(HUB)框架,以建模教师理性、专业知识和成本之间的差异,并正式化了从多名教师处学习的问题。我们开发了多种求解算法,并将它们应用于两个现实世界领域:论文推荐系统和COVID-19疫苗测试。我们发现,积极教师选择(ATS)算法在主动选择何时以及选择哪个教师进行查询方面优于基础算法。HUB框架和ATS算法表明,在学习准确的奖励模型时利用教师之间的差异的重要性,这将推动未来在稳健奖励建模中的积极教师选择研究。