LLM2D

摘要

arXiv:2502.06807v1 类别: cross 摘要: 我们展示了将强化学习应用于大型语言模型 (LLMs) 显著提升了复杂编程和推理任务的表现。此外，我们将两款通用推理模型 - OpenAI o1 和较早版本的 o3 - 与一个特定领域的系统 o1-ioi 进行了对比，o1-ioi 使用了专门为参加 2024 年国际信息学奥林匹克 (IOI) 设计的手工设计的推理策略。我们在 2024 年 IOI 上现场与 o1-ioi 竞赛，并通过手工编写的测试时间策略，在第 49 个百分位取得了好成绩。在较为宽松的比赛限制下，o1-ioi 获得了金牌。然而，在评估后来的模型 o3 时，我们发现 o3 在没有手工设计的特定领域策略或宽松限制的情况下就能获得金牌。我们的研究发现，尽管专门的流水线如 o1-ioi 提供了稳健的改进，但扩展后的通用型 o3 模型在推理领域（如编程竞赛）中超过了这些结果，而无需依赖手工设计的推理启发式方法。值得注意的是，o3 在 2024 年 IOI 中获得了金牌，并且在 Codeforces 上达到了与顶尖人类选手相当的评级。总体而言，这些结果表明，与依赖于特定领域的技术相比，扩展通用型强化学习为推理领域的先进 AI 提供了一条稳健的道路。