LLM2D

摘要

arXiv:2407.19345v3 宣布类型: replace-cross 摘要: 我们提出了选择性去bias——一种在推理时的安全机制，旨在在重训练模型不切实际的场景中，提升模型的整体质量和公平性，特别是在预测性能和公平性方面。该方法借鉴了选择性分类的思路，在推理时，根据其不确定性分数丢弃低质量的预测。在我们的方法中，我们识别出可能存在偏见的模型预测，而不是直接丢弃它们，而是使用LEACE——一种后处理去bias方法——从这些预测中去除偏见。为了选择有问题的预测，我们提出了一种基于KL散度的偏见量化方法，其结果优于标准的不确定性量化方法。实验表明，在基于编码器的分类模型和文本分类数据集上，选择性去bias有助于减少后处理方法与训练时和预处理类别中的去bias技术之间的性能差距。