LLM2D

摘要

arXiv:2502.10428v1 计算机科学领域新研究摘要: 为减少由计算冗余和延迟的奖励分配在长推理链中引起的成本和计算资源消耗，本研究提出了一种具有自适应推理时间和步骤的动态推理链。研究者使用Python 3.13 IDLE结合基于GPTs的Python模拟器进行了仿真试验，以模拟D-CoT的集成。同时，研究者使用DeepSeek R1作为对照组，测试并比较D-CoT模拟器在处理MIT OpenCourseWare的线性代数考试问题时的表现。实验结果表明，在推理时间、推理链长度（推理步骤）和标记计数这三个指标上，D-CoT相较于DeepSeek R1在长推理链中表现更优，实现了显著的计算资源消耗降低。此外，该研究在深度推理优化方面具有潜在价值，并可作为未来动态深度推理框架的参考。