摘要
arXiv:2502.08482v1 类型: cross
摘要: 链式思维(Chain-of-Thought, CoT)提示已经作为一种增强语言模型推理能力的强大力量而浮出水面。然而,生成长且正确的CoT轨迹具有挑战性。最近的研究表明,循环Transformer具有显著的长度泛化能力,但它们的局限性泛化和适应性限制了它们作为自回归解决方案的替代品的能力。为了更好地利用循环Transformer的优势,我们提出了一种名为RELAY(循环连接的迭代推理)的方法。具体而言,我们将链式思维(CoT)推理的步骤与循环迭代对齐,并在循环Transformer的训练过程中应用中间监督。这种额外的迭代监督不仅保留了循环Transformer的长度泛化能力,还使其能够预测未见过的数据的CoT推理步骤。因此,我们利用这个循环Transformer为超过训练长度的复杂问题生成准确的推理链,然后用于微调自回归模型。我们进行了广泛的实验,结果表明了我们方法的有效性,并在自回归模型的性能上取得了显著提升。代码将在https://github.com/qifanyu/RELAY发布。