摘要
arXiv:2502.19363v3 宣告类型: replace-cross
摘要:大数据规模法则驱动的大语言模型(LLMs)性能的出现,使得预训练数据的选择越来越重要。然而,现有的方法依赖于有限的经验法则和人类直觉,缺乏全面而清晰的指导方针。为了解决这一问题,我们受到了“逆向思考”的启发——提示LLMs自我识别哪些标准能提升其性能。由于其预训练能力与困惑度(PPL)有关,我们从文本困惑度异常的原因中推导出14个质量标准,并引入15个常见的应用领域以支持领域混合。在本文中,我们训练了一个数据管理器(DataMan),使其从点级别评分中学习质量评级和领域识别能力,并使用它为一个447B令牌的预训练语料库打上14个质量评级和领域类型。我们的实验验证了这种方法的有效性,使用DataMan选择30B令牌来训练一个参数量为1.3B的语言模型,展示了在上下文内学习(ICL)、困惑度和指令跟随能力方面与最先进的基准相比有显著改善。基于整体评分l=5的最优模型,在使用均匀采样训练的数据量多50%的情况下,仍然表现更优。我们继续使用DataMan注释的高评分、领域特定的数据进行预训练,以增强特定领域的ICL性能,从而验证了DataMan的领域混合能力。我们的研究强调了质量排名的重要性、质量标准的互补性以及它们与困惑度的低相关性,并分析了PPL与ICL性能之间的不一致。我们还详细分析了预训练数据集,检查了其构成、质量评分的分布以及原始文档来源。