LLM2D

摘要

arXiv:2504.13941v1 Announce Type: 跨摘要：大型语言模型（LLMs）展示了强大的推理能力，特别是在通过强化学习（RL）增强后表现尤为突出。尽管以前的工作已经在数学推理方面成功应用了RL（其中规则和正确性定义明确），但将这些方法推广应用到更广泛的推理领域仍然具有挑战性，原因包括数据有限、缺乏可验证的奖励结构以及任务需求的多样化。在本文中，我们提出了NEMOTRON-CROSSTHINK框架，该框架系统地将涵盖STEM、人文、社会科学等领域的合成和真实世界的问题-答案对纳入RL训练，以提高对多样化推理任务的泛化能力。NEMOTRON-CROSSTHINK通过以下几个方面应对关键挑战：（1）纳入来自不同来源的数据，涵盖STEM、人文、社会科学等领域；（2）应用结构化模板（例如，多项选择题和开放式问题）以控制答案空间的复杂性；（3）筛选可验证的答案；以及（4）优化有效利用多来源数据的数据混合策略。我们的方法使得在数学之外的可扩展且可验证的奖励建模成为可能，并且在数学（MATH-500: +30.1%，AMC23:+27.5%）和非数学推理基准测试（MMLU-PRO: +12.8%，GPQA-DIAMOND: +11.3%，AGIEVAL: +15.1%，SUPERGPQA: +3.8%）上均表现出改进的准确性。此外，NEMOTRON-CROSSTHINK在响应效率方面表现出显著改进，使用28%更少的令牌来生成正确答案，这表明推理更具针对性和有效性。通过NEMOTRON-CROSSTHINK，我们证明了将多领域、多格式数据纳入RL可以导致更准确、更高效和更泛化的LLMs。