LLM2D

摘要

arXiv:2503.18826v1 交叉类型摘要：放弃分类器可以在难以分类的实例上选择不提供预测。弃权机制的设计旨在在 accepted 数据上交易分类器的性能，同时保证最小数量的预测。在这种情况下，当弃权机制仅减少数据中多数群体的错误时，往往会引发公平性问题，导致不同人口群体间的表现差异加剧。虽然存在许多旨在减少弃权时歧视的方法，但目前还没有能够在可解释性方面实现这一目标的机制。在这篇论文中，我们通过引入可解释且公平的弃权分类器（IFAC），填补了这一空白。IFAC 是一种基于不确定性和不公平性双重标准拒绝预测的算法。通过拒绝可能不公平的预测，我们的方法能够减少在未拒绝数据中的人口群体间错误率和正决策率的差异。由于基于设计可解释的拒绝标准，即基于规则的公平性检查和情景测试，我们创建了一个透明的过程，可以让人类决策者审查这些不公平的预测，并为他们做出更为公正的决策。这种可解释性尤其重要，鉴于最近的 AI 规定，任何高风险的决策任务都需要由人类专家监督，以减少歧视风险。