LLM2D

摘要

arXiv:2502.10482v1 宣布类型: 新摘要: 我们提出了一种新的后训练大型语言模型的强化学习框架，该框架不依赖于人类在环反馈。相反，我们的方法使用模型本身内的交叉注意信号来推导出自我监督的奖励，从而引导模型策略的迭代微调。通过分析模型在生成过程中对输入提示的注意力机制，我们构建了提示覆盖面、焦点和一致性度量。然后，我们使用这些度量来对候选响应进行排序或评分，提供一个奖励信号，鼓励模型生成符合主题且对齐良好的文本。在与标准策略梯度方法和使用合成偏好模型的RL微调方法的实证比较中，我们的方法在提示相关性和一致性方面显著优于非RL基线。虽然它尚未达到完全基于人类监督的RLHF系统的性能，但它强调了通过最少的人类标注进行可扩展性对齐的重要方向。我们提供了详细的分析，讨论了潜在的限制，并概述了结合基于交叉注意力的信号和少量人类反馈的未来工作。