LLM2D

摘要

arXiv:2505.00802v1 宣告类型: 新摘要: 当人工智能(AI)在对人类生活产生重大影响的领域中越来越被广泛应用时，关于公平性和透明度的担忧也在增加，尤其是在这些领域对受保护群体的影响方面尤为突出。最近，可解释性和公平性的交集已成为推动负责任的AI系统的重要领域。本文探讨了如何利用解释方法来检测和解释不公。我们提出了一种管道，该管道将局部事后解释方法整合起来，以获取与公平性相关的见解。在管道设计过程中，我们识别并解决了使用解释作为偏见检测器时产生的一些关键问题，如分配公平性和程序公平性的关系、移除受保护属性的影响、不同解释方法的结果的一致性和质量、局部解释的各种聚合策略对群体公平性评估的影响，以及作为偏见检测器的解释的整体可信度。我们的结果显示了使用解释方法进行公平性方面的潜在价值，同时也强调了需要谨慎考虑上述关键方面。