LLM2D
将解释作为偏差检测器:局部后嵌XAI方法在公平性探索中的批判性研究
Explanations as Bias Detectors: A Critical Study of Local Post-hoc XAI Methods for Fairness Exploration
作者: Vasiliki Papanikou, Danae Pla Karidi, Evaggelia Pitoura, Emmanouil Panagiotou, Eirini Ntoutsi
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.00802v1

摘要

arXiv:2505.00802v1 宣告类型: 新 摘要: 当人工智能(AI)在对人类生活产生重大影响的领域中越来越被广泛应用时,关于公平性和透明度的担忧也在增加,尤其是在这些领域对受保护群体的影响方面尤为突出。最近,可解释性和公平性的交集已成为推动负责任的AI系统的重要领域。本文探讨了如何利用解释方法来检测和解释不公。我们提出了一种管道,该管道将局部事后解释方法整合起来,以获取与公平性相关的见解。在管道设计过程中,我们识别并解决了使用解释作为偏见检测器时产生的一些关键问题,如分配公平性和程序公平性的关系、移除受保护属性的影响、不同解释方法的结果的一致性和质量、局部解释的各种聚合策略对群体公平性评估的影响,以及作为偏见检测器的解释的整体可信度。我们的结果显示了使用解释方法进行公平性方面的潜在价值,同时也强调了需要谨慎考虑上述关键方面。