摘要
arXiv:2502.19790v2 宣告类型: replace-cross
摘要:当前最先进的大型语言和视觉模型是通过汇总来自大量不同来源的数万亿标记进行训练的。随着训练数据集合的增长,手动管理样本变得耗时、繁琐且容易出错。然而,最近的研究表明,在训练过程中访问样本的顺序和数据混合方式对模型准确性有显著影响。我们构建并展示了Mixtera,一个基础模型训练的数据平面,允许用户声明性地表达在训练过程中应使用哪些数据样本以及使用这些样本的比例和顺序。Mixtera是一个中央的只读层,部署在现有的训练数据集合之上,并且可以通过声明性查询访问。它独立于文件系统结构,并支持任意属性(例如,语言、源数据集)的数据混合,以及基于模型反馈动态调整混合比例。我们实验性地评估了Mixtera,并展示了我们的实现没有成为训练瓶颈,并能扩展到256个GH200超级芯片。我们演示了Mixtera如何支持混合策略的最新进展,通过在系统中实现并评估提议的自适应数据优化(ADO)算法来影响性能。我们还探讨了数据混合对于视觉语言模型的作用。