LLM2D
Lightspeed 几何数据集距离通过分层最优传输
Lightspeed Geometric Dataset Distance via Sliced Optimal Transport
作者: Khai Nguyen, Hai Nguyen, Tuan Pham, Nhat Ho
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2501.18901v2

摘要

arXiv:2501.18901v2 通告类型: replace-cross 摘要: 我们介绍了一种模型无关、嵌入无关的数据集比较方法——切片最优运输数据集距离(s-OTDD),该方法无需训练,对类别数量的变化具有鲁棒性,并能够处理不连续的标签集。核心创新是矩变换投影(MTP),它可以将标签(表示为特征的分布)映射到一个实数。使用MTP,我们推导出一个数据点投影,将数据集转换成一维分布。s-OTDD定义为在随机投影参数下投影分布的期望 Wasserstein 距离。利用一维最优运输的闭形式解,s-OTDD在数据点数量和特征维度的数量上实现了接近线性的计算复杂度,并且与类别数量无关。借助其几何上有意义的投影,s-OTDD与最优运输数据集距离高度相关,同时比现有数据集差异度量更为高效。此外,s-OTDD与迁移学习中的性能差距和数据增强中的分类准确性也高度相关。