LLM2D

摘要

arXiv:2504.02807v1 宣布类型: cross 摘要：数学推理是人类智能的基石，也是大型语言模型（LLMs）高级能力的重要基准。然而，研究社区仍然缺少一个针对数学为中心的LLM预训练需求的开放、大规模、高质量语料库。我们提出了MegaMath，这是一个通过以下实践从多样化的数学焦点来源中整理而来的开放数据集：（1）重新提取网络数据：我们使用数学导向的HTML优化、基于fastText的过滤和去重，重新从Common Crawl中提取数学文档，以在网络中获取更高质量的数据。（2）回忆相关的代码数据：我们从大型代码训练语料库Stack-V2中识别高质量的数学相关代码，进一步增强数据多样性。（3）探索合成数据：我们从网络数据或代码数据中合成了问答风格的文本、数学相关代码以及交织的文本-代码块。通过整合这些策略并通过对大量消融实验的有效性进行验证，MegaMath提供了现有开放数学预训练数据集中最大的371亿 tokens 数量和最高质量的数据集。