摘要
arXiv:2502.08211v1 交叉公告类型
摘要:在大数据泛滥的时代,有效整理网络爬取数据集对于优化模型性能至关重要。本文解决了此类数据集无结构和异构性质带来的挑战。传统的启发式整理方法往往无法充分捕捉复杂特征,从而产生偏见并排除相关数据。我们提出了一种先进的基于学习的整理方法,Ensemble Curation Of DAta ThroUgh Multimodal Operators (EcoDatum),并引入了一种新颖的质量指导去重复方法,以确保特征分布的平衡。EcoDatum 系统性地整合了各种单模态和多模态数据整理操作符在弱监督集成框架中,利用自动化优化为每个数据点进行有效评分。EcoDatum 显著提高了数据整理质量和效率,超越了现有的最先进的(SOTA)技术,在 DataComp 榜单上排名第一,平均性能得分为0.182,涵盖38个不同的评估数据集。这比 DataComp 基线方法提高了28%,展示了其在提高数据集整理和模型训练效率方面的有效性。