LLM2D

摘要

arXiv:2502.02221v1 声明类型: cross 摘要：偏差评估是值得信赖的AI的基本要素，无论是检查数据质量还是检查AI系统的输出。例如，在测试数据质量时，可以研究给定数据集与给定的真实参考数据集作为分布的偏差距离。然而，诸如Total Variation和Wasserstein距离等经典的度量标准已知具有高的样本复杂度，并且因此在许多实际场景中可能无法提供有意义的区别。在本文中，我们提出了一种新的距离概念，即最大子组差异(MSD)。在这种度量标准中，两个分布如果大致而言，所有特征子组中的差异都很低，则被认为是接近的。尽管子组的数量可能呈指数级增长，但我们展示了样本复杂度与特征数量成线性关系，从而使其实现了实际应用的可行性。此外，我们提供了一种基于混合整数优化(MIO)的实用算法来评估距离。我们还注意到，所提出的距离易于解释，因此在识别出偏差后，提供了更清晰的纠偏路径。此外，它还为所有子组提供了保证。最后，我们对真实世界的数据集进行了实验性评估，与其他度量标准进行了比较，并展示了MSD的上述性质。