LLM2D
NEMOTRON-CROSSTHINK:超越数学推理的自我学习扩展
NEMOTRON-CROSSTHINK: Scaling Self-Learning beyond Math Reasoning
作者: Syeda Nahida Akter, Shrimai Prabhumoye, Matvei Novikov, Seungju Han, Ying Lin, Evelina Bakhturi, Eric Nyberg, Yejin Choi, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.13941v1

摘要

arXiv:2504.13941v1 Announce Type: 跨 摘要:大型语言模型(LLMs)展示了强大的推理能力,特别是在通过强化学习(RL)增强后表现尤为突出。尽管以前的工作已经在数学推理方面成功应用了RL(其中规则和正确性定义明确),但将这些方法推广应用到更广泛的推理领域仍然具有挑战性,原因包括数据有限、缺乏可验证的奖励结构以及任务需求的多样化。在本文中,我们提出了NEMOTRON-CROSSTHINK框架,该框架系统地将涵盖STEM、人文、社会科学等领域的合成和真实世界的问题-答案对纳入RL训练,以提高对多样化推理任务的泛化能力。NEMOTRON-CROSSTHINK通过以下几个方面应对关键挑战:(1)纳入来自不同来源的数据,涵盖STEM、人文、社会科学等领域;(2)应用结构化模板(例如,多项选择题和开放式问题)以控制答案空间的复杂性;(3)筛选可验证的答案;以及(4)优化有效利用多来源数据的数据混合策略。我们的方法使得在数学之外的可扩展且可验证的奖励建模成为可能,并且在数学(MATH-500: +30.1%,AMC23:+27.5%)和非数学推理基准测试(MMLU-PRO: +12.8%,GPQA-DIAMOND: +11.3%,AGIEVAL: +15.1%,SUPERGPQA: +3.8%)上均表现出改进的准确性。此外,NEMOTRON-CROSSTHINK在响应效率方面表现出显著改进,使用28%更少的令牌来生成正确答案,这表明推理更具针对性和有效性。通过NEMOTRON-CROSSTHINK,我们证明了将多领域、多格式数据纳入RL可以导致更准确、更高效和更泛化的LLMs。