LLM2D

摘要

arXiv:2502.19363v3 宣告类型: replace-cross 摘要：大数据规模法则驱动的大语言模型（LLMs）性能的出现，使得预训练数据的选择越来越重要。然而，现有的方法依赖于有限的经验法则和人类直觉，缺乏全面而清晰的指导方针。为了解决这一问题，我们受到了“逆向思考”的启发——提示LLMs自我识别哪些标准能提升其性能。由于其预训练能力与困惑度（PPL）有关，我们从文本困惑度异常的原因中推导出14个质量标准，并引入15个常见的应用领域以支持领域混合。在本文中，我们训练了一个数据管理器（DataMan），使其从点级别评分中学习质量评级和领域识别能力，并使用它为一个447B令牌的预训练语料库打上14个质量评级和领域类型。我们的实验验证了这种方法的有效性，使用DataMan选择30B令牌来训练一个参数量为1.3B的语言模型，展示了在上下文内学习（ICL）、困惑度和指令跟随能力方面与最先进的基准相比有显著改善。基于整体评分l=5的最优模型，在使用均匀采样训练的数据量多50%的情况下，仍然表现更优。我们继续使用DataMan注释的高评分、领域特定的数据进行预训练，以增强特定领域的ICL性能，从而验证了DataMan的领域混合能力。我们的研究强调了质量排名的重要性、质量标准的互补性以及它们与困惑度的低相关性，并分析了PPL与ICL性能之间的不一致。我们还详细分析了预训练数据集，检查了其构成、质量评分的分布以及原始文档来源。