LLM2D

摘要

arXiv:2402.07625v5 宣告类型: replace-cross 摘要: 我们介绍了自主数据选择（AutoDS）方法，该方法利用基础语言模型本身作为零样本“生成分类器”自动生成高质量的数学文本。与先前需要人工注释或训练专用数据过滤器的方法不同，AutoDS 仅依赖于模型的logits来确定给定段落是否具有数学信息性和教育性。通过将AutoDS集成到持续预训练管道中，我们在使用远少于之前方法的token数量的情况下，显著提升了对具有挑战性的数学基准（MATH、GSM8K和BBH）的下游性能。实证结果表明，与强劲的基线方法相比，我们的方法在预训练token效率方面实现了约两倍的提升，强调了自主数据选择在增强数学推理方面的发展潜力。我们发布了我们的自动生成AutoMathText数据集，以促进未来在自动化领域特定数据整理方面的研究。AutoMathText数据集可在https://huggingface.co/datasets/math-ai/AutoMathText获取。代码可在https://github.com/yifanzhang-pro/AutoMathText获取。