LLM2D
思维痕迹:通过从大语言模型向小语言模型提炼推理过程以增强算术问题求解
Trace-of-Thought: Enhanced Arithmetic Problem Solving via Reasoning Distillation From Large to Small Language Models
作者: Tyler McDonald, Ali Emami
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20946v1

摘要

arXiv:2504.20946v1 Announce Type: cross 摘要:随着大型语言模型(LLMs)在日常任务中的不断应用,提示工程仍然是计算语言学领域的一个活跃贡献领域,尤其是在需要专门知识的领域中,如算术推理。虽然这些LLMs在多种任务上进行了优化,但它们的全面应用可能对小型团队来说在计算或财务上变得冗长。此外,完全依赖于专有、封闭源代码的模型往往限制了定制和适应性,给研究和应用的大规模扩展带来了重大挑战。相反,通过利用参数量在7亿或以下的开源模型,我们可以优化资源使用,同时仍能观察到与标准提示方法相比显著的改进。为了培养这一理念,我们引入了思维轨迹提示,这是一种简单的零样本提示工程方法,指示LLMs使用关键问题解决技巧创建可观察的子问题,特别设计以增强算术推理能力。当与GPT-4结合应用于开源模型时,我们观察到思维轨迹不仅允许对问题解决过程产生新的见解,还在参数量在7亿或以下的语言模型中引入了高达125%的性能增益。这种方法强调了开源项目的潜在价值,即通过这些项目来普及人工智能研究,提高高质量计算语言学应用的可获得性。