摘要
arXiv:2402.16442v3 宣布类型: 替换-交叉
摘要:现代数据集包含数十亿个样本,使得在所有可用数据上进行训练变得不可行。选择一个高质量的子集有助于降低训练成本并提升模型质量。子调和性,即连续凸性的离散对应,常用于解决此类子集选择问题。然而,现有的子调和函数优化算法是顺序进行的,而现有的分布式方法至少需要一台中央机器来适应目标子集。在规模达到十亿数据点时,即使子集也可能不能容纳在一台机器中,而顺序算法会变得极其缓慢。在本文中,我们通过提出一种具有可证明近似保证的新型分布式边界算法,放宽了对中央机器的要求。该算法通过迭代地对最小和最大效用值进行边界约束,以选择高质量点并丢弃不重要的点。当边界约束未能找到完整子集时,我们使用多轮次、基于分区的分布式贪婪算法来识别剩余子集。我们讨论了如何在分布式数据处理框架中实现这些算法,并进行了不同的配置的实验分析。我们发现,在CIFAR-100和ImageNet数据集上找到高质量的子集,与集中式方法相比,几乎没有或没有质量损失,并能扩展到包含130亿个点的数据集。