LLM2D
通过最大子组差异进行偏差检测
Bias Detection via Maximum Subgroup Discrepancy
作者: Ji\v{r}\'i N\v{e}me\v{c}ek, Mark Kozdoba, Illia Kryvoviaz, Tom\'a\v{s} Pevn\'y, Jakub Mare\v{c}ek
发布日期: 2/5/2025
arXiv ID: 2502.02221

摘要

arXiv:2502.02221v1 类别:交叉学科 摘要:偏见评估是可信AI的基本组成部分,无论是检查数据质量还是检查AI系统的输出。例如,在检查数据质量时,人们可以通过将给定的数据集视为分布,并研究它与给定的真实参考数据集之间的距离。但是,经典的度量标准,如总变差和Wasserstein距离,已知具有高的样本复杂度,并且因此在许多实际场景中无法提供有意义的区分。 在这篇论文中,我们提出了一种新的距离概念,即最大子群差异(MSD)。在这一度量中,两个分布距离较近,如果几乎所有特征子群的差异都很低。尽管子群的数量可能呈指数增长,但我们证明样本复杂度与特征数量成线性关系,从而使其在实际应用中可行。此外,我们基于混合整数优化(MIO)提供了一种实用的距离评估算法。我们还指出,所提出的距离是易于解释的,从而提供了更明确的纠正识别出的偏见的方法,并为所有子群提供了保证。最后,我们在实际数据集上实证评估、与其他度量标准进行比较,并展示了MSD的上述性质。