摘要
arXiv:2502.10428v2 提示类型: 新
摘要: 为减少由于长链推理(CoT)中的计算冗余和延迟奖励分配导致的计算资源成本和消耗,本文提出了一种带有自适应推理时间和步骤的动态链推理(D-CoT)。研究人员通过结合基于GPT的Python仿真器和Python 3.13 IDLE进行模拟实验,模拟了D-CoT的集成方式。同时,研究人员使用DeepSeek R1作为对照组,测试并对比了D-CoT仿真器在处理MIT开放课程的线性代数考试题目时的表现。实验结果显示,D-CoT在推理时间、CoT长度(推理步骤)和token计数三个指标上优于DeepSeek R1,实现了计算资源消耗的显著减少。此外,该研究在动态深度推理优化方面具有潜在价值,可作为未来动态深度推理框架的参考。