摘要
arXiv:2502.01694v1 宣布类型: 新
摘要:提高大型语言模型(LLM)推理能力的一个关键范式是为与验证器或奖励模型的搜索分配更多的推理时计算力。这一过程可以用于细化预训练模型或将其实验模式中的推理模式提炼成更高效的模型。在本文中,我们将思维链(CoT)生成视为一个介稳态马尔可夫过程:简单的推理步骤(例如,代数变换)形成了紧密连接的集群,而困难的推理步骤(例如,应用相关定理)则在集群之间创建了稀疏且低概率的边缘,导致在更长的时间尺度上出现相变。在这一框架下,我们证明了实施奖励稀疏边缘的搜索协议可以提高CoT,通过减少达到不同集群的期望步骤数来实现。相比之下,我们确立了当模型受限于预训练图的局部信息时推理能力的上限。我们还展示了搜索所获得的信息可以用于获得更好的推理模型:(1)预训练模型可以通过策略梯度方法直接微调以偏爱稀疏边缘;此外(2)稳定态推理动态的一个压缩表示可以被提炼为一个更小且更高效的模型。