摘要
arXiv:2502.04391v1 宣告类型: cross
摘要:面部解析是计算机视觉中的一个基本任务,能够实现身份验证、面部编辑和可控图像合成等应用。然而,现有的面部解析模型往往缺乏公平性和鲁棒性,导致不同人口群体之间的偏差分割以及在遮挡、噪声和领域转换条件下的错误。这些限制影响了下游的面部合成,其中分割偏差可以降低生成模型的输出质量。我们提出了一种多目标学习框架,以在面部解析中优化准确度、公平性和鲁棒性。我们的方法引入了一种基于同伦的损失函数,该函数在训练过程中动态调整这些目标的重要性。为了评估其影响,我们比较了多目标和单目标U-Net模型在基于GAN的面部合成管道(Pix2PixHD)中的性能。我们的结果表明,公平性和鲁棒性的分割提高了面部生成的真实性和一致性。此外,我们使用ControlNet(一种基于扩散的合成结构条件模型)进行了初步实验,以探索分割质量如何影响引导图像生成。我们的发现表明,多目标面部解析可以提高人口统计特性的一致性和鲁棒性,从而提高基于GAN的合成质量。