摘要
arXiv:2503.21961v1 类别: cross
摘要: 虽然大型语言模型(LLMs)通过广泛的预训练和微调有效实现了对齐,但在标记生成过程中仍然会遇到不同程度的不确定性。在我们对数学推理的调查中,我们观察到,在模型输出分布中表现出高熵和熵变异性的情况下,错误更可能产生。基于这一观察,我们提出了一种新的方法,该方法根据需要动态分支生成过程,而不是默认选择单一最可能的标记。通过并行探索来自关键决策点的高概率标记衍生出的多个分支,模型可以发现其他情况下可能错过的多样推理路径。我们进一步利用更大模型的外部反馈来评估和选择最连贯且准确的推理分支。我们在数学文字问题和计算问题上的实验结果显示,这种分支策略使小型语言模型的推理能力提高了4.6%,相较于传统的argmax解码方法。