摘要
arXiv:2502.10482v2 提交类型: 替换
摘要:我们提出了一种新的后训练大型语言模型的强化学习框架,该框架不依赖于人的循环反馈。相反,我们的方法利用模型内部的交叉注意力信号来推导出自监督的奖励,从而引导模型策略的迭代微调。通过分析模型在生成过程中对输入提示的注意力分配,我们构建了提示覆盖度、焦点和连贯性的衡量标准。然后,我们使用这些衡量标准对候选响应进行排名或评分,从而提供一种奖励信号,鼓励模型生成内容更为一致且相关性强的文本。在与标准策略梯度方法和使用合成偏好模型的RL微调方法的实证比较中,我们的方法在提示的相关性和一致性方面相对于非RL基线显示出显著的提升。虽然它尚未达到完全由人类监督的RLHF系统的性能水平,但它突显了一个重要的方向,即通过最少的人类标注来扩展对齐。我们进行了详细的分析,讨论了潜在的局限性,并概述了将基于交叉注意力的信号与少量的人类反馈相结合的未来工作。