LLM2D

摘要

arXiv:2502.03387v1 类型: cross 摘要: 我们提出了一项基本发现，挑战了我们对大型语言模型中复杂推理如何产生这一理解。虽然普遍认为复杂的推理任务需要大量的训练数据（>100,000 个示例），但我们证明，复杂的数学推理能力可以用令人惊讶地少量示例有效激发。通过全面的实验，我们提出的模型 LIMO 在数学推理中展示了前所未有的性能。仅使用 817 个精挑细选的训练样本，LIMO 在 AIME 中达到 57.1% 的准确率，在 MATH 中达到 94.8%，在先前基于 SFT 的模型的 6.5% 和 59.2% 的基础上有所提高，同时仅使用之前方法所需训练数据的 1%。LIMO 在分布外泛化方面表现出色，在 10 个不同的基准测试中实现了 40.5% 的绝对改进，超过了在 100 倍更多数据上训练的模型，挑战了 SFT 导致记忆而不是泛化的观点。基于这些结果，我们提出了“少即多推理假设”（LIMO 假设）：在基础模型中，在预训练过程中全面编码了领域知识的情况下，复杂的推理能力可以通过最少但精确编排的认知过程展示来产生。该假设认为，复杂推理的激发阈值由两个关键因素决定：(1) 预训练期间模型编码知识基础的完整性，以及 (2) 预训练后示例作为“认知模板”的有效性，这些示例展示了模型如何利用其知识库解决复杂的推理任务。为了促进高效推理的可重复性和未来研究，我们以开源套件的形式发布了 LIMO，可以在 https://github.com/GAIR-NLP/LIMO 上获得。