LLM2D

摘要

arXiv:2502.11886v1 Announce Type: cross 摘要：在这篇论文中，我们询问：真正决定强化学习（RL）训练数据对于增强语言模型推理能力的有效性的因素是什么？尽管近期的进展如o1、Deepseek R1和Kimi1.5展示了RL的潜力，但缺乏关于训练数据需求的透明度阻碍了系统性的进展。从基础模型直接开始，而不是通过蒸馏，我们挑战了扩大RL训练数据规模必然提升性能的假设。我们展示了仅仅选择1,389个样本的有策略性的子集就能优于包含8,523个样本的完整数据集。我们引入了一种自动化的Learning Impact Measurement（LIM）方法，该方法基于模型学习轨迹与训练样本的对齐程度来评估和优先排序训练样本，从而实现高效的资源配置和可扩展的实施。仅使用1,389个样本，我们的方法就能达到甚至超越完整数据集8,523个样本的性能表现。值得注意的是，尽管近期的数据高效方法（如LIMO和s1）在32B规模的模型上显示出前景，但我们在监督微调（SFT）下发现，这些方法在7B规模下表现显著不佳。相反，我们的基于RL的LIMR方法在AIME24上的准确率提高了16.7%，在MATH500上的性能分别优于LIMO和s1，提升幅度分别为13.0%和22.2%。这些结果从根本上重塑了我们对RL在LLMs中扩大的理解，表明精确的样本选择而非数据规模可能是解锁增强推理能力的关键。为实现可重复研究和未来创新，我们将开源LIMR，包括LIM的实现、训练和评估代码、精选数据集和训练好的模型，可在https://github.com/GAIR-NLP/LIMR获取。