LLM2D

摘要

arXiv:2310.15288v2 通知类型: 修改摘要：从人类反馈中进行强化学习（RLHF）使机器学习系统能够从人类反馈中学习目标。这些系统的核心局限在于，它们假定所有反馈都来自单一的人类教师，尽管实际上查询了多个不同的教师。我们提出了隐藏效用多臂-bandit（HUB）框架，以建模教师理性、专业知识和成本之间的差异，并正式化了从多名教师处学习的问题。我们开发了多种求解算法，并将它们应用于两个现实世界领域：论文推荐系统和COVID-19疫苗测试。我们发现，积极教师选择（ATS）算法在主动选择何时以及选择哪个教师进行查询方面优于基础算法。HUB框架和ATS算法表明，在学习准确的奖励模型时利用教师之间的差异的重要性，这将推动未来在稳健奖励建模中的积极教师选择研究。