LLM2D
大规模推理模型下的 Competitive Programming
Competitive Programming with Large Reasoning Models
作者: OpenAI, :, Ahmed El-Kishky, Alexander Wei, Andre Saraiva, Borys Minaev, Daniel Selsam, David Dohan, Francis Song, Hunter Lightman, Ignasi Clavera, Jakub Pachocki, Jerry Tworek, Lorenz Kuhn, Lukasz Kaiser, Mark Chen, Max Schwarzer, Mostafa Rohaninejad, Nat McAleese, o3 contributors, Oleg M\"urk, Rhythm Garg, Rui Shu, Szymon Sidor, Vineet Kosaraju, Wenda Zhou
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.06807v1

摘要

arXiv:2502.06807v1 类别: cross 摘要: 我们展示了将强化学习应用于大型语言模型 (LLMs) 显著提升了复杂编程和推理任务的表现。此外,我们将两款通用推理模型 - OpenAI o1 和较早版本的 o3 - 与一个特定领域的系统 o1-ioi 进行了对比,o1-ioi 使用了专门为参加 2024 年国际信息学奥林匹克 (IOI) 设计的手工设计的推理策略。我们在 2024 年 IOI 上现场与 o1-ioi 竞赛,并通过手工编写的测试时间策略,在第 49 个百分位取得了好成绩。在较为宽松的比赛限制下,o1-ioi 获得了金牌。然而,在评估后来的模型 o3 时,我们发现 o3 在没有手工设计的特定领域策略或宽松限制的情况下就能获得金牌。我们的研究发现,尽管专门的流水线如 o1-ioi 提供了稳健的改进,但扩展后的通用型 o3 模型在推理领域(如编程竞赛)中超过了这些结果,而无需依赖手工设计的推理启发式方法。值得注意的是,o3 在 2024 年 IOI 中获得了金牌,并且在 Codeforces 上达到了与顶尖人类选手相当的评级。总体而言,这些结果表明,与依赖于特定领域的技术相比,扩展通用型强化学习为推理领域的先进 AI 提供了一条稳健的道路。