摘要
arXiv:2502.12143v1 公告类型: 新
摘要: 大语言模型(LLMs)在复杂推理任务中表现出色,将它们的推理能力精简到较小的模型中也显示出潜力。然而,我们在研究中发现了一个有趣的现象,我们称之为小型模型学习能力差距:小型模型(参数量 $\leq$3B)并不一贯地从长链推理(CoT)中受益或从大模型中进行精简。相反,它们在更短、更简单的推理链上表现更好,这些推理链更好地与它们的固有学习能力相匹配。为了解决这个问题,我们提出了一种名为Mix Distillation的简单而有效的策略,通过结合长和短的CoT示例或从大、小型模型中获取推理,来平衡推理的复杂性。我们的实验表明,与仅使用数据训练相比,Mix Distillation显着提高了小型模型的推理性能。这些发现突显了直接强模型精简的局限性,并强调了适应推理复杂性对于有效推理能力转移的重要性。