摘要
arXiv:2505.02433v1 宣告类型: cross
摘要:我们提出了FairPO,这是一种新型框架,旨在通过从群体稳健性的视角直接优化偏好信号来促进多标签分类中的公平性。在我们的框架中,标签集被划分为特权和非特权群体,并采用受直接偏好优化(DPO)启发的基于偏好的损失函数,以更有效地在特权群体中区分真实正标签与混淆的负标签,同时保持非特权标签的基础分类性能。通过将学习问题视为群体上的稳健优化问题,我们的方法动态调整训练重点,朝向表现较差的群体,从而减轻偏差并确保在多样化的标签类别中得到更加公平的对待。此外,我们计划通过研究替代的损失形式,例如简单偏好优化(SimPO)和对比偏好优化(CPO),来利用参考无关的奖励形式和对比训练信号来扩展这种方法。此外,我们计划扩展FairPO以具备多标签生成能力,使模型能够动态地为模糊输入生成多样且连贯的标签集。