LLM2D

摘要

arXiv:2502.10428v2 提示类型: 新摘要: 为减少由于长链推理(CoT)中的计算冗余和延迟奖励分配导致的计算资源成本和消耗，本文提出了一种带有自适应推理时间和步骤的动态链推理(D-CoT)。研究人员通过结合基于GPT的Python仿真器和Python 3.13 IDLE进行模拟实验，模拟了D-CoT的集成方式。同时，研究人员使用DeepSeek R1作为对照组，测试并对比了D-CoT仿真器在处理MIT开放课程的线性代数考试题目时的表现。实验结果显示，D-CoT在推理时间、CoT长度（推理步骤）和token计数三个指标上优于DeepSeek R1，实现了计算资源消耗的显著减少。此外，该研究在动态深度推理优化方面具有潜在价值，可作为未来动态深度推理框架的参考。