LLM2D

摘要

arXiv:2503.18826v2 公告类型: replace-cross 摘要：弃权分类器可以选择对难以分类的实例不提供预测。弃权机制的设计是在接受的数据集上权衡分类器的性能，同时确保最低限度的预测数量。在这种情况下，当弃权机制仅减少数据主要群体的错误时，往往会引发公平性问题，导致不同人口群体之间性能差异的增加。尽管存在许多旨在减少弃权时歧视的方法，但没有机制能够以可解释的方式做到这一点。在本文中，我们通过引入可解释和公平弃权分类器（IFAC），填补了这一空白，该算法可以根据不确定性以及不公平性来拒绝预测。通过拒绝可能不公平的预测，我们的方法减少了未拒绝数据中不同人口群体的错误率和正决策率差异。由于基于设计的可解释方法——基于规则的公平性检查和情景测试——进行的不公平性拒绝，我们创建了一个透明的过程，这可以使人类决策者审查这些不公平的预测，并为它们做出更加公正的决策。这一点尤为重要，因为最近的人工智能法规规定，任何高风险决策任务都应由专家监督，以减少歧视风险。