LLM2D

摘要

在现实世界的机器学习 (ML) 管道中，数据集不断增长。模型必须整合这些新的训练数据以提高泛化能力并适应潜在的分布变化。模型重新训练的成本与模型重新训练的频率和训练数据量成正比，这使得每次都从头开始重新训练的简单方法变得不切实际。我们提出了 Modyn，一个以数据为中心的端到端机器学习平台。Modyn 的 ML 管道抽象使⽤户能够声明式地描述在不断增长的数据集上持续训练模型的策略。Modyn 管道允许用户应用数据选择策略（以减少数据点的数量）和触发策略（以减少训练次数）。Modyn 执行并协调这些持续的 ML 训练管道。该系统是开源的，并附带基准数据集、模型和工具的生态系统。我们正式讨论了如何通过引入复合模型的概念来衡量 ML 管道的性能，从而能够公平地比较具有不同数据选择和触发策略的管道。我们通过实证分析了各种数据选择和触发策略如何影响模型精度，并且还表明 Modyn 能够实现具有样本级数据选择的⾼吞吐量训练。