摘要
arXiv:2502.09955v1
公告类型: 新闻
摘要: 类似于OpenAI的o1、o3和DeepSeek的R1等推理大语言模型在数学和编程领域取得了显著进展,但在国际数学奥林匹克(IMO)组合问题、抽象与推理语料库(ARC)谜题和人类最终考试(HLE)问题等复杂任务上仍面临挑战。我们通过在测试时结合多种模型和方法来使用一种多样化的推理方法。我们发现,验证数学和代码问题的正确性,以及在其他问题上进行拒绝采样是非常简单且有效的。我们通过Lean验证IMO问题的解答正确性,并通过代码验证ARC谜题的正确性,发现最佳的N次采样有效地回答了HLE问题。我们的方法将IMO组合问题的答案准确性从33.3%提高到77.8%,将HLE问题的答案准确性从8%提高到37%,并且解决了948名人类无法解决的80%的ARC谜题,以及o3高计算能力无法解决的26.5%的ARC谜题。通过测试时模拟、强化学习和通过推理反馈进行的元学习改进了泛化能力,通过调整代理图表示和提示、代码和数据集。我们的方法是可靠的、 robust的、可扩展的,并且遵循可重复研究的精神,我们在发布时将使其公开可用。