LLM2D
LIMO: 少就是多的推理
LIMO: Less is More for Reasoning
作者: Yixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.03387v1

摘要

arXiv:2502.03387v1 类型: cross 摘要: 我们提出了一项基本发现,挑战了我们对大型语言模型中复杂推理如何产生这一理解。虽然普遍认为复杂的推理任务需要大量的训练数据(>100,000 个示例),但我们证明,复杂的数学推理能力可以用令人惊讶地少量示例有效激发。通过全面的实验,我们提出的模型 LIMO 在数学推理中展示了前所未有的性能。仅使用 817 个精挑细选的训练样本,LIMO 在 AIME 中达到 57.1% 的准确率,在 MATH 中达到 94.8%,在先前基于 SFT 的模型的 6.5% 和 59.2% 的基础上有所提高,同时仅使用之前方法所需训练数据的 1%。LIMO 在分布外泛化方面表现出色,在 10 个不同的基准测试中实现了 40.5% 的绝对改进,超过了在 100 倍更多数据上训练的模型,挑战了 SFT 导致记忆而不是泛化的观点。基于这些结果,我们提出了“少即多推理假设”(LIMO 假设):在基础模型中,在预训练过程中全面编码了领域知识的情况下,复杂的推理能力可以通过最少但精确编排的认知过程展示来产生。该假设认为,复杂推理的激发阈值由两个关键因素决定:(1) 预训练期间模型编码知识基础的完整性,以及 (2) 预训练后示例作为“认知模板”的有效性,这些示例展示了模型如何利用其知识库解决复杂的推理任务。为了促进高效推理的可重复性和未来研究,我们以开源套件的形式发布了 LIMO,可以在 https://github.com/GAIR-NLP/LIMO 上获得。