摘要
arXiv:2502.02221v1 声明类型: cross
摘要:偏差评估是值得信赖的AI的基本要素,无论是检查数据质量还是检查AI系统的输出。例如,在测试数据质量时,可以研究给定数据集与给定的真实参考数据集作为分布的偏差距离。然而,诸如Total Variation和Wasserstein距离等经典的度量标准已知具有高的样本复杂度,并且因此在许多实际场景中可能无法提供有意义的区别。
在本文中,我们提出了一种新的距离概念,即最大子组差异(MSD)。在这种度量标准中,两个分布如果大致而言,所有特征子组中的差异都很低,则被认为是接近的。尽管子组的数量可能呈指数级增长,但我们展示了样本复杂度与特征数量成线性关系,从而使其实现了实际应用的可行性。此外,我们提供了一种基于混合整数优化(MIO)的实用算法来评估距离。我们还注意到,所提出的距离易于解释,因此在识别出偏差后,提供了更清晰的纠偏路径。此外,它还为所有子组提供了保证。最后,我们对真实世界的数据集进行了实验性评估,与其他度量标准进行了比较,并展示了MSD的上述性质。