LLM2D

摘要

arXiv:2504.13234v1 Announce Type: cross 摘要：随着迁移学习模型和数据集的不断扩大，高效的适应性和存储优化已成为关键需求。聚类选择通过识别并保留最具信息量的样本，构建目标领域的紧凑子集来应对这些挑战。然而，当前方法主要依赖于实例级别的难度评估，忽视了关键的类别级别特征，从而未能充分代表少数类。为克服这一点，我们提出了非均匀类内聚类选择（NUCS），这是一种结合了类别级别和实例级别标准的新框架。NUCS根据固有的类别难度自动为每个类别分配数据选择预算，并适应性地选择在最佳难度范围内的样本。通过明确引入类别特定的见解，我们的方法实现了更均衡且更具代表性的聚类选择，解决了先前方法的关键缺陷。全面的理论分析验证了自适应预算分配和样本选择背后的合理性，而广泛的实验（跨越14个不同的数据集和模型架构）证明了NUCS在优于最先进的方法方面的持续改进，实现了更高的准确性和计算效率。值得注意的是，在CIFAR100和Food101上，NUCS只需保留30%的样本，同时将计算时间减少60%，即可达到与全数据训练相当的准确性。我们的工作强调了在聚类选择中表征类别难度的重要性，提供了一种针对迁移学习的稳健且数据高效的解决方案。