摘要
arXiv:2501.18901v1 剪切最优传输数据集距离类型: cross
摘要: 我们引入了剪切最优传输数据集距离(s-OTDD),这是一种无需训练、对模型和嵌入无依赖的数据集比较方法,适用于类别的数量变化,并能够处理不相交的标签集。核心创新是时刻变换投影(MTP),它将标签映射为特征上的分布,并转化为一个实数。使用MTP,我们推导出一个数据点投影,将数据集转换为一维分布。s-OTDD 定义为在随机投影参数下的投影分布之间的期望 Wasserstein 距离。利用一维最优传输的闭式解,s-OTDD 达到了(接近)线性的计算复杂度,在数据点数量和特征维度方面,并且与类别数量无关。凭借其具几何意义的投影,s-OTDD 与最优传输数据集距离有着很强的相关性,而在计算上优于现有的数据集差异度量方法。此外,s-OTDD 与迁移学习中的性能差距以及数据增强中的分类准确率有着良好的相关性。