LLM2D

摘要

arXiv:2502.12855v1 Announce Type: cross 摘要：虽然在高质量数据上预训练的大模型在各种推理任务中表现出色，包括数学推理（例如GSM8k、MultiArith），但将较小模型专门优化以在数学推理方面表现出色仍然是一个具有挑战性的问题。为了解决这个问题，常见的方法包括知识蒸馏，即较小的学生模型从大型预训练教师模型中学习，以及数据增强，例如重新表述问题。尽管付出了这些努力，但较小的模型在算术计算方面仍然存在困难，导致数学推理中的错误。在本文中，我们专注于利用编程生成的算术数据集来增强较小模型的推理能力。我们探讨了两种关键方法来整合该数据集——（1）中间微调，即在模型在推理数据集上训练之前，在算术数据集上进行微调，以及（2）将算术数据集整合到指令微调混合中，使模型能够在学习一般指令执行能力的同时学习算术技能。我们在多个推理基准上的实验结果表明，通过针对性微调或将其整合到指令微调混合中来引入算术数据集会增强模型的算术能力，从而提高其数学推理性能。