LLM2D

摘要

arXiv:2504.08672v1 宣告类型: cross 摘要: 提升大规模语言模型（LLM）的推理能力引起了广泛的关注。然而，当前的后训练技术高度依赖监督信号，如结果监督或辅助奖励模型，这些方法面临可扩展性和高标注成本的问题。这促使我们无需外部监督就能增强LLM的推理能力。我们介绍了一种可泛化的、完全无监督的自我训练框架，名为Genius。在没有外部辅助的情况下，Genius要求以逐步方式寻求最佳响应序列并优化LLM。为了探索潜在的步骤并利用最优的步骤，Genius引入了一种逐步前瞻重采样策略，通过模拟未来结果来采样和估计步骤值。进一步地，我们认识到在无监督设置中不可避免地会产生内在噪声和不确定性。为了提供稳健的优化，我们提出了一个经优势校准的优化（ACO）损失函数，以减轻估计不一致的问题。结合这些技术和方法，Genius提供了一种先进的初步步骤，旨在在无需监督的情况下自我提升LLM的推理能力，同时利用广泛可用的通用查询革命性地改进推理的扩展律。代码将在https://github.com/xufangzhi/Genius上发布。