摘要
arXiv:2502.01694v1 公告类型: 新
摘要: 提高大型语言模型(LLMs)推理能力的一个关键范式是,在验证器或奖励模型中分配更多的推理时计算资源。这一过程可以用于细化预训练模型或将其实验模式提炼为更高效的模型。在本文中,我们从观点链推理(CoT)生成是介稳态马尔可夫过程这一点出发研究推理时计算资源:简单的推理步骤(例如,代数操作)形成紧密连接的簇,而复杂的推理步骤(例如,应用相关定理)在簇之间创建稀疏的、低概率的边,导致在较长的时间尺度上出现相变。在这种框架下,我们证明了实施奖励稀疏边的搜索协议可以提高 CoT,通过减少达到不同簇所需步骤的期望数量。相比之下,当模型受制于预训练图的局部信息时,我们设定了推理能力的上限。我们还表明,通过搜索获得的信息可以用于获得更好的推理模型:(1)预训练模型可以通过策略梯度方法直接微调以偏好稀疏边;此外(2)可以从较大的动态中提取出一种压缩的介稳态表示,并精简为更小、更高效的模型。