LLM2D
通过最大子组差异检测偏差
Bias Detection via Maximum Subgroup Discrepancy
作者: Ji\v{r}\'i N\v{e}me\v{c}ek, Mark Kozdoba, Illia Kryvoviaz, Tom\'a\v{s} Pevn\'y, Jakub Mare\v{c}ek
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.02221v1

摘要

arXiv:2502.02221v1 声明类型: cross 摘要:偏差评估是值得信赖的AI的基本要素,无论是检查数据质量还是检查AI系统的输出。例如,在测试数据质量时,可以研究给定数据集与给定的真实参考数据集作为分布的偏差距离。然而,诸如Total Variation和Wasserstein距离等经典的度量标准已知具有高的样本复杂度,并且因此在许多实际场景中可能无法提供有意义的区别。 在本文中,我们提出了一种新的距离概念,即最大子组差异(MSD)。在这种度量标准中,两个分布如果大致而言,所有特征子组中的差异都很低,则被认为是接近的。尽管子组的数量可能呈指数级增长,但我们展示了样本复杂度与特征数量成线性关系,从而使其实现了实际应用的可行性。此外,我们提供了一种基于混合整数优化(MIO)的实用算法来评估距离。我们还注意到,所提出的距离易于解释,因此在识别出偏差后,提供了更清晰的纠偏路径。此外,它还为所有子组提供了保证。最后,我们对真实世界的数据集进行了实验性评估,与其他度量标准进行了比较,并展示了MSD的上述性质。