摘要
arXiv:2504.08672v1 宣告类型: cross
摘要: 提升大规模语言模型(LLM)的推理能力引起了广泛的关注。然而,当前的后训练技术高度依赖监督信号,如结果监督或辅助奖励模型,这些方法面临可扩展性和高标注成本的问题。这促使我们无需外部监督就能增强LLM的推理能力。我们介绍了一种可泛化的、完全无监督的自我训练框架,名为Genius。在没有外部辅助的情况下,Genius要求以逐步方式寻求最佳响应序列并优化LLM。为了探索潜在的步骤并利用最优的步骤,Genius引入了一种逐步前瞻重采样策略,通过模拟未来结果来采样和估计步骤值。进一步地,我们认识到在无监督设置中不可避免地会产生内在噪声和不确定性。为了提供稳健的优化,我们提出了一个经优势校准的优化(ACO)损失函数,以减轻估计不一致的问题。结合这些技术和方法,Genius提供了一种先进的初步步骤,旨在在无需监督的情况下自我提升LLM的推理能力,同时利用广泛可用的通用查询革命性地改进推理的扩展律。代码将在https://github.com/xufangzhi/Genius上发布。