LLM2D

摘要

arXiv:2502.04391v1 宣告类型: cross 摘要：面部解析是计算机视觉中的一个基本任务，能够实现身份验证、面部编辑和可控图像合成等应用。然而，现有的面部解析模型往往缺乏公平性和鲁棒性，导致不同人口群体之间的偏差分割以及在遮挡、噪声和领域转换条件下的错误。这些限制影响了下游的面部合成，其中分割偏差可以降低生成模型的输出质量。我们提出了一种多目标学习框架，以在面部解析中优化准确度、公平性和鲁棒性。我们的方法引入了一种基于同伦的损失函数，该函数在训练过程中动态调整这些目标的重要性。为了评估其影响，我们比较了多目标和单目标U-Net模型在基于GAN的面部合成管道（Pix2PixHD）中的性能。我们的结果表明，公平性和鲁棒性的分割提高了面部生成的真实性和一致性。此外，我们使用ControlNet（一种基于扩散的合成结构条件模型）进行了初步实验，以探索分割质量如何影响引导图像生成。我们的发现表明，多目标面部解析可以提高人口统计特性的一致性和鲁棒性，从而提高基于GAN的合成质量。