摘要
arXiv:2505.10185v1 Announce Type: 综合
摘要:长链推理(CoT)是现代大型语言模型有效使用的必要成分,但我们对其能力背后的推理策略的理解仍有限。尽管有一些先前的工作尝试通过预定义的策略类型对CoT进行分类,但这些方法受到人类直觉的限制,并未能捕捉到模型行为的全部多样性。在这项工作中,我们引入了CoT百科全书,这是一种自下而上的框架,用于分析和引导模型推理。我们的方法自动从模型生成的CoT中提取多样化的推理标准,将它们嵌入到语义空间中,将其聚类到代表性类别中,并推导出对比评判标准来解释推理行为。人类评估表明,该框架产生的分析比现有方法更具可解释性和全面性。此外,我们证明了这种理解带来了性能提升:我们可以预测模型可能会使用哪种策略,并引导其采用更有效的替代方案。最后,我们提供了实用的见解,例如,训练数据格式(如自由形式 vs 多选题)对推理行为的影响远大于数据领域,突显了格式感知模型设计的重要性。