LLM2D
基于分布式的内存超容量子集选择与成对亚模函数
On Distributed Larger-Than-Memory Subset Selection With Pairwise Submodular Functions
作者: Maximilian B\"other, Abraham Sebastian, Pranjal Awasthi, Ana Klimovic, Srikumar Ramalingam
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2402.16442v3

摘要

arXiv:2402.16442v3 宣布类型: 替换-交叉 摘要:现代数据集包含数十亿个样本,使得在所有可用数据上进行训练变得不可行。选择一个高质量的子集有助于降低训练成本并提升模型质量。子调和性,即连续凸性的离散对应,常用于解决此类子集选择问题。然而,现有的子调和函数优化算法是顺序进行的,而现有的分布式方法至少需要一台中央机器来适应目标子集。在规模达到十亿数据点时,即使子集也可能不能容纳在一台机器中,而顺序算法会变得极其缓慢。在本文中,我们通过提出一种具有可证明近似保证的新型分布式边界算法,放宽了对中央机器的要求。该算法通过迭代地对最小和最大效用值进行边界约束,以选择高质量点并丢弃不重要的点。当边界约束未能找到完整子集时,我们使用多轮次、基于分区的分布式贪婪算法来识别剩余子集。我们讨论了如何在分布式数据处理框架中实现这些算法,并进行了不同的配置的实验分析。我们发现,在CIFAR-100和ImageNet数据集上找到高质量的子集,与集中式方法相比,几乎没有或没有质量损失,并能扩展到包含130亿个点的数据集。