LLM2D
RLTHF:面向目标的人类反馈用于LLM对齐
RLTHF: Targeted Human Feedback for LLM Alignment
作者: Yifei Xu, Tusher Chakraborty, Emre K{\i}c{\i}man, Bibek Aryal, Eduardo Rodrigues, Srinagesh Sharma, Roberto Estevao, Maria Angels de Luis Balaguer, Jessica Wolk, Rafael Padilha, Leonardo Nunes, Shobana Balakrishnan, Songwu Lu, Ranveer Chandra
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13417v1

摘要

arXiv:2502.13417v1 任务类型:跨域 摘要:由于强化学习从人类反馈(RLHF)中高质量的人类注释成本高以及AI反馈的一般化限制,将大规模语言模型(LLMs)调整到与用户偏好一致具有挑战性。为了解决这些挑战,我们提出了一种人机混合框架RLTHF,该框架结合了基于LLM的初步对齐和选择性的人类注释,以最小的努力实现全面的人类注释对齐。RLTHF使用奖励模型的奖励分布来识别LLM错误标注的难以注释的样本,并通过集成战略的人类修正来逐步增强对齐,同时利用LLM正确标注的样本。在HH-RLHF和TL;DR数据集上的评估结果显示,RLTHF仅需6-7%的人类注释努力即可达到全面的人类注释级别对齐。此外,使用RLTHF精选数据集进行下游任务训练的模型在性能上优于使用完全人类标注数据集训练的模型,这进一步证明了RLTHF战略数据精选的有效性。