摘要
arXiv:2502.12022v1 Announce Type: cross
摘要:现有的大型语言模型(LLMs)在数学推理中的方法依赖于思维链(CoT)以提高泛化能力,或工具整合推理(TIR)以实现精确计算。尽管已经尝试将这些方法结合起来,但它们主要依赖于事后选择或预定义策略,留下了一个开放的问题:LLMs 是否可以根据其内在能力自主适应其推理策略。在本文中,我们提出了 TATA(根据能力教授 LLMs),这是一种适应性框架,使 LLMs 能够自发地个性化其推理策略,使其与内在能力相一致。TATA 在有监督微调(SFT)期间结合了基于基础 LLM 的数据选择,以根据模型的独特能力定制训练数据。这种方法使 LLMs 能够在测试时自主确定并应用适当的推理策略。我们通过在六个数学推理基准上的广泛实验评估了 TATA,使用了通用和数学专门化的 LLMs。实验结果表明,TATA 有效地结合了 CoT 和 TIR 的互补优势,在推理效率提升的情况下,实现了单独使用 TIR 的更优或可比性能。进一步的分析强调了根据能力选择数据在使 LLMs 作出有效且适应性强的推理决策以及使推理策略与模型能力相一致方面的作用。