LLM2D

摘要

arXiv:2502.14619v1 交叉公告类型摘要：奖励模型（RMs）在使大型语言模型（LLMs）与人类偏好保持一致并提高推理质量方面发挥着核心作用。传统上，RMs 被训练以基于其正确性和连贯性对候选输出进行排序。然而，在这项工作中，我们提出了几个令人惊讶的发现，挑战了对 RM 行为的常见假设。我们的分析揭示，最先进的奖励模型优先考虑结构性一致性而非因果正确性。具体来说，移除问题陈述对手动评分影响甚微，而改变数值或打断推理流程显著影响 RM 的输出。此外，RMs 对完整的推理轨迹表现出强烈的依赖性，如果推理步骤被截断或不完整，则会显著改变奖励分配，表明 RMs 主要依赖于学习到的推理模式，而不是明确的问题理解。这些发现跨越了多种架构、数据集和任务，导致了三个关键见解：（1）RMs 主要评估连贯性而非真正的推理质量；（2）明确的问题理解在奖励分配中的作用被夸大了；（3）当前的 RMs 可能在排序响应方面更有效，而不仅仅是验证逻辑有效性。我们的结果表明，现有的奖励建模方法存在根本性的局限性，强调需要转向具有因果性意识的奖励模型，而不仅仅是基于一致性的评估。