LLM2D

摘要

arXiv:2505.03335v2 宣告类型: replace-cross 摘要: 可验证奖励强化学习（RLVR）通过直接从基于结果的奖励中学习，展示了增强大型语言模型推理能力的潜力。最近在零样本设置下的RLVR工作避免了监督推理过程的标记，但仍依赖于手工编纂的问题和答案集合进行训练。高质量的人类生成示例的稀缺性引发人们对依赖人类监督的长期可扩展性的担忧，这一挑战已经在语言模型预训练领域表现出明显迹象。此外，在假设未来人工智能超越人类智能的情况下，人类提供的任务可能为超级智能系统提供有限的学习潜力。为了解决这些问题，我们提出了一种新的RLVR范式称为绝对零，在这种范式中，单一模型学会提出最大化自身学习进步的任务，并通过解决这些问题来提升推理能力，而无需依赖任何外部数据。在这个范式下，我们引入了绝对零推理器（AZR），这是一个通过使用代码执行器来验证提出的代码推理任务并验证答案的系统，从而自我进化其训练课程和推理能力，并作为一个统一的可验证奖励来源，指导开放而具体的学习。尽管完全在没有外部数据的情况下进行训练，AZR在编码和数学推理任务上达到了总体SOTA性能，且优于依赖数万个领域内手工编纂示例的现有零设置模型。此外，我们展示了AZR可以在不同的模型规模下有效应用，并与其他模型类别兼容。