LLM2D
零-shot 生成分类器驱动的数学文本自主数据选择
Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts
作者: Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2402.07625v4

摘要

arXiv:2402.07625v4 宣告类型: 替换-交叉 摘要:我们提出了自主数据选择(AutoDS),这是一种方法,利用基础语言模型本身作为零-shot“生成分类器”,自动筛选高质量的数学文本。与需要人工注释或训练专用数据过滤器的先前方法不同,AutoDS仅依赖模型的logits来确定给定段落是否具有数学信息和教育价值。通过将AutoDS整合到连续的预训练管道中,我们在使用比以前方法少得多的标记的情况下,显著提升了具有挑战性的数学基准测试(MATH、GSM8K和BBH)的下游性能。从经验上讲,我们的方法在预训练标记效率上大约实现了两倍的改进,突显了自我引导的数据选择在增强数学推理方面的潜力。我们发布了我们的精选AutoMathText数据集,以促进未来在自动化领域特定数据整理方面的研究。AutoMathText数据集可在https://huggingface.co/datasets/math-ai/AutoMathText获取。代码可在https://github.com/yifanzhang-pro/AutoMathText获取。