摘要
arXiv:2504.13234v1 Announce Type: cross
摘要:随着迁移学习模型和数据集的不断扩大,高效的适应性和存储优化已成为关键需求。聚类选择通过识别并保留最具信息量的样本,构建目标领域的紧凑子集来应对这些挑战。然而,当前方法主要依赖于实例级别的难度评估,忽视了关键的类别级别特征,从而未能充分代表少数类。为克服这一点,我们提出了非均匀类内聚类选择(NUCS),这是一种结合了类别级别和实例级别标准的新框架。NUCS根据固有的类别难度自动为每个类别分配数据选择预算,并适应性地选择在最佳难度范围内的样本。通过明确引入类别特定的见解,我们的方法实现了更均衡且更具代表性的聚类选择,解决了先前方法的关键缺陷。全面的理论分析验证了自适应预算分配和样本选择背后的合理性,而广泛的实验(跨越14个不同的数据集和模型架构)证明了NUCS在优于最先进的方法方面的持续改进,实现了更高的准确性和计算效率。值得注意的是,在CIFAR100和Food101上,NUCS只需保留30%的样本,同时将计算时间减少60%,即可达到与全数据训练相当的准确性。我们的工作强调了在聚类选择中表征类别难度的重要性,提供了一种针对迁移学习的稳健且数据高效的解决方案。