LLM2D

摘要

arXiv:2402.16442v3 宣布类型: 替换-交叉摘要：现代数据集包含数十亿个样本，使得在所有可用数据上进行训练变得不可行。选择一个高质量的子集有助于降低训练成本并提升模型质量。子调和性，即连续凸性的离散对应，常用于解决此类子集选择问题。然而，现有的子调和函数优化算法是顺序进行的，而现有的分布式方法至少需要一台中央机器来适应目标子集。在规模达到十亿数据点时，即使子集也可能不能容纳在一台机器中，而顺序算法会变得极其缓慢。在本文中，我们通过提出一种具有可证明近似保证的新型分布式边界算法，放宽了对中央机器的要求。该算法通过迭代地对最小和最大效用值进行边界约束，以选择高质量点并丢弃不重要的点。当边界约束未能找到完整子集时，我们使用多轮次、基于分区的分布式贪婪算法来识别剩余子集。我们讨论了如何在分布式数据处理框架中实现这些算法，并进行了不同的配置的实验分析。我们发现，在CIFAR-100和ImageNet数据集上找到高质量的子集，与集中式方法相比，几乎没有或没有质量损失，并能扩展到包含130亿个点的数据集。