摘要
arXiv:2402.07625v5 宣告类型: replace-cross
摘要: 我们介绍了自主数据选择(AutoDS)方法,该方法利用基础语言模型本身作为零样本“生成分类器”自动生成高质量的数学文本。与先前需要人工注释或训练专用数据过滤器的方法不同,AutoDS 仅依赖于模型的logits来确定给定段落是否具有数学信息性和教育性。通过将AutoDS集成到持续预训练管道中,我们在使用远少于之前方法的token数量的情况下,显著提升了对具有挑战性的数学基准(MATH、GSM8K和BBH)的下游性能。实证结果表明,与强劲的基线方法相比,我们的方法在预训练token效率方面实现了约两倍的提升,强调了自主数据选择在增强数学推理方面的发展潜力。我们发布了我们的自动生成AutoMathText数据集,以促进未来在自动化领域特定数据整理方面的研究。AutoMathText数据集可在https://huggingface.co/datasets/math-ai/AutoMathText获取。代码可在https://github.com/yifanzhang-pro/AutoMathText获取。