LLM2D

摘要

arXiv:2502.12143v1 公告类型: 新摘要: 大语言模型（LLMs）在复杂推理任务中表现出色，将它们的推理能力精简到较小的模型中也显示出潜力。然而，我们在研究中发现了一个有趣的现象，我们称之为小型模型学习能力差距：小型模型（参数量 $\leq$3B）并不一贯地从长链推理（CoT）中受益或从大模型中进行精简。相反，它们在更短、更简单的推理链上表现更好，这些推理链更好地与它们的固有学习能力相匹配。为了解决这个问题，我们提出了一种名为Mix Distillation的简单而有效的策略，通过结合长和短的CoT示例或从大、小型模型中获取推理，来平衡推理的复杂性。我们的实验表明，与仅使用数据训练相比，Mix Distillation显着提高了小型模型的推理性能。这些发现突显了直接强模型精简的局限性，并强调了适应推理复杂性对于有效推理能力转移的重要性。