摘要
arXiv:2502.06807v2 宣告类型: 替换-交叉
摘要:我们展示了将强化学习应用于大型语言模型(LLMs)在复杂的编码和推理任务中显著提升了性能。此外,我们比较了两种通用推理模型——OpenAI o1 和早期的 o3 检查点——以及一个特定领域的系统 o1-ioi,该系统使用了为参加2024年国际信息学奥林匹克(IOI)竞赛而手工设计的推理策略。我们参加了2024年的IOI竞赛,并使用手工设计的测试时策略,o1-ioi 处于第49百分位。在放宽的竞赛约束下,o1-ioi 获得了金牌。然而,在评估后来的模型如 o3 时,我们发现 o3 在不需要手工设计的具体领域的策略或放宽的约束条件下也能够获得金牌。我们的发现表明,虽然专门的流水线如 o1-ioi 能带来切实的改进,但规模扩大的通用型 o3 模型则在不需要依赖手工设计的推理启发式算法的情况下超越了这些结果。值得注意的是,o3 在2024年的IOI竞赛中获得了金牌,并且其Codeforces评级与顶级的人类竞争对手相当。总体而言,这些结果表明,在推理领域,如编程竞赛领域,通过扩展通用型强化学习而非依赖特定领域的技术的方式,提供了一个稳健的道路以达到最先进的AI表现。