LLM2D
基于子采样点到子空间距离的偏见检测样本复杂性
Sample Complexity of Bias Detection with Subsampled Point-to-Subspace Distances
作者: German Martinez Matilla, Jakub Marecek
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.02623v1

摘要

arXiv:2502.02623v1 宣告类型: cross 摘要: 偏差估计的样本复杂性是任何偏差检测方法所需运行时间的下界。许多监管框架要求对所有亚组进行偏差测试,而亚组的数量随着保护属性数量的指数增长。除非希望以双指数运行时间进行偏差检测,否则应该希望单个亚组的偏差检测具有多项式复杂性。同时,参考数据可能基于调查,因此带有不可忽视的不确定性。在这里,我们将偏差检测重新表述为度量空间上的点到超平面问题,并表明对于 supremum 范数,它可以高效地进行子采样。特别是,我们的概率近似正确(PAC)结果通过著名的实例测试得到验证。