LLM2D
推理时选择性去偏见以增强文本分类模型的公平性
Inference-Time Selective Debiasing to Enhance Fairness in Text Classification Models
作者: Gleb Kuzmin, Neemesh Yadav, Ivan Smirnov, Timothy Baldwin, Artem Shelmanov
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2407.19345v3

摘要

arXiv:2407.19345v3 宣布类型: replace-cross 摘要: 我们提出了选择性去bias——一种在推理时的安全机制,旨在在重训练模型不切实际的场景中,提升模型的整体质量和公平性,特别是在预测性能和公平性方面。该方法借鉴了选择性分类的思路,在推理时,根据其不确定性分数丢弃低质量的预测。在我们的方法中,我们识别出可能存在偏见的模型预测,而不是直接丢弃它们,而是使用LEACE——一种后处理去bias方法——从这些预测中去除偏见。为了选择有问题的预测,我们提出了一种基于KL散度的偏见量化方法,其结果优于标准的不确定性量化方法。实验表明,在基于编码器的分类模型和文本分类数据集上,选择性去bias有助于减少后处理方法与训练时和预处理类别中的去bias技术之间的性能差距。