LLM2D
基于人类反馈的强化学习的活跃教师选择
Active teacher selection for reinforcement learning from human feedback
作者: Rachel Freedman, Justin Svegliato, Kyle Wray, Stuart Russell
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2310.15288v2

摘要

arXiv:2310.15288v2 通知类型: 修改 摘要:从人类反馈中进行强化学习(RLHF)使机器学习系统能够从人类反馈中学习目标。这些系统的核心局限在于,它们假定所有反馈都来自单一的人类教师,尽管实际上查询了多个不同的教师。我们提出了隐藏效用多臂-bandit(HUB)框架,以建模教师理性、专业知识和成本之间的差异,并正式化了从多名教师处学习的问题。我们开发了多种求解算法,并将它们应用于两个现实世界领域:论文推荐系统和COVID-19疫苗测试。我们发现,积极教师选择(ATS)算法在主动选择何时以及选择哪个教师进行查询方面优于基础算法。HUB框架和ATS算法表明,在学习准确的奖励模型时利用教师之间的差异的重要性,这将推动未来在稳健奖励建模中的积极教师选择研究。