摘要
arXiv:2502.04354v1 通知类型: cross
摘要:从人类偏好构建神经奖励模型是强化学习从人类反馈中学习(RLHF)和大型语言模型对齐研究中的关键组成部分。鉴于人类注释的稀缺性和高昂成本,如何选择最具有信息量的对进行注释是一个至关重要的但又具有挑战性的问题。在本文中,我们提出了一种见解,即理想的动力模型比较数据集应平衡对表示空间的探索,并在奖励差异适中的对之间进行具有信息量的比较。从技术上讲,量化这两个目标并高效地优先排序需要标注的比较是一个挑战。为了解决这个问题,我们提出了基于费舍尔信息的选择策略,适应经典实验设计文献中的理论,并将其应用于基于深度神经网络的动力模型任务的最终线性层。实验结果显示,与来自深度学习和经典统计文献的其他选择方法相比,我们的方法在多个开源LLM和数据集中表现出显著的性能、高计算效率和稳定性。进一步的消融研究表明,在活跃的动力模型中纳入跨提示比较显著提高了标注效率,为RLHF中的改进注释策略提供了可能的前景。