摘要
arXiv:2502.06807v1 类别: cross
摘要: 我们展示了将强化学习应用于大型语言模型 (LLMs) 显著提升了复杂编程和推理任务的表现。此外,我们将两款通用推理模型 - OpenAI o1 和较早版本的 o3 - 与一个特定领域的系统 o1-ioi 进行了对比,o1-ioi 使用了专门为参加 2024 年国际信息学奥林匹克 (IOI) 设计的手工设计的推理策略。我们在 2024 年 IOI 上现场与 o1-ioi 竞赛,并通过手工编写的测试时间策略,在第 49 个百分位取得了好成绩。在较为宽松的比赛限制下,o1-ioi 获得了金牌。然而,在评估后来的模型 o3 时,我们发现 o3 在没有手工设计的特定领域策略或宽松限制的情况下就能获得金牌。我们的研究发现,尽管专门的流水线如 o1-ioi 提供了稳健的改进,但扩展后的通用型 o3 模型在推理领域(如编程竞赛)中超过了这些结果,而无需依赖手工设计的推理启发式方法。值得注意的是,o3 在 2024 年 IOI 中获得了金牌,并且在 Codeforces 上达到了与顶尖人类选手相当的评级。总体而言,这些结果表明,与依赖于特定领域的技术相比,扩展通用型强化学习为推理领域的先进 AI 提供了一条稳健的道路。