摘要
arXiv:2502.14619v1 交叉公告类型
摘要:奖励模型(RMs)在使大型语言模型(LLMs)与人类偏好保持一致并提高推理质量方面发挥着核心作用。传统上,RMs 被训练以基于其正确性和连贯性对候选输出进行排序。然而,在这项工作中,我们提出了几个令人惊讶的发现,挑战了对 RM 行为的常见假设。我们的分析揭示,最先进的奖励模型优先考虑结构性一致性而非因果正确性。具体来说,移除问题陈述对手动评分影响甚微,而改变数值或打断推理流程显著影响 RM 的输出。此外,RMs 对完整的推理轨迹表现出强烈的依赖性,如果推理步骤被截断或不完整,则会显著改变奖励分配,表明 RMs 主要依赖于学习到的推理模式,而不是明确的问题理解。这些发现跨越了多种架构、数据集和任务,导致了三个关键见解:(1)RMs 主要评估连贯性而非真正的推理质量;(2)明确的问题理解在奖励分配中的作用被夸大了;(3)当前的 RMs 可能在排序响应方面更有效,而不仅仅是验证逻辑有效性。我们的结果表明,现有的奖励建模方法存在根本性的局限性,强调需要转向具有因果性意识的奖励模型,而不仅仅是基于一致性的评估。