摘要
arXiv:2504.10337v1 通告类型: 新
摘要:一个AI系统能够创建和维护知识的范围受限于它能够验证知识本身的能力。近年来关于长链推理的研究表明,大语言模型在解决竞争性问题方面具有巨大潜力,但它们的验证能力仍然较弱且尚未得到充分研究。在本文中,我们提出了一种名为Heimdall的长链推理验证的大语言模型,能够准确判断解决方案的正确性。通过纯强化学习,我们在竞争性数学问题上的验证准确性从62.5%提升到94.5%。通过重复采样的扩展,准确性进一步提高到97.5%。通过人工评估,Heimdall展示了显著的泛化能力,成功检测出训练过程中未包括的具有挑战性的数学证明中的大多数问题。此外,我们提出了悲观验证,以扩大Heimdall的功能,使其能够解决更大规模的问题。它调用Heimdall判断求解器模型的解决方案,并基于悲观原则,选择不确定性最小的最可能正确的解决方案。以DeepSeek-R1-Distill-Qwen-32B作为求解器模型,悲观验证在AIME2025上的解的准确性在16倍计算预算下从54.2%提升到70.0%,在更多计算预算下提升到83.3%。使用更强的求解器Gemini 2.5 Pro,得分达到了93.0%。最后,我们构建了一个自动知识发现系统,这是一个三元系统,一个人提出问题,另一个人提供解决方案,第三个则验证解决方案。使用NuminaMath的数据合成工作为前两个组件,Heimdall有效地识别了数据集中有问题的记录,并揭示出近一半的数据是错误的,这一发现有趣地与NuminaMath的最近消融研究结果一致。