LLM2D

摘要

arXiv:2502.02221v1 类别：交叉学科摘要：偏见评估是可信AI的基本组成部分，无论是检查数据质量还是检查AI系统的输出。例如，在检查数据质量时，人们可以通过将给定的数据集视为分布，并研究它与给定的真实参考数据集之间的距离。但是，经典的度量标准，如总变差和Wasserstein距离，已知具有高的样本复杂度，并且因此在许多实际场景中无法提供有意义的区分。在这篇论文中，我们提出了一种新的距离概念，即最大子群差异（MSD）。在这一度量中，两个分布距离较近，如果几乎所有特征子群的差异都很低。尽管子群的数量可能呈指数增长，但我们证明样本复杂度与特征数量成线性关系，从而使其在实际应用中可行。此外，我们基于混合整数优化（MIO）提供了一种实用的距离评估算法。我们还指出，所提出的距离是易于解释的，从而提供了更明确的纠正识别出的偏见的方法，并为所有子群提供了保证。最后，我们在实际数据集上实证评估、与其他度量标准进行比较，并展示了MSD的上述性质。