LLM2D

摘要

arXiv:2505.06436v1 类型: cross 摘要：生成对抗网络方法如StyleGAN/2提供了两项关键优势：生成照片级真实的面部图像的能力以及一个 semantically 结构化的潜在空间，这些图像正是从中生成的。通过识别预训练 StyleGAN/2 模型潜在空间中的语义有意义的方向（例如性别或年龄），已经出现了许多方法来编辑来自潜在空间中的向量派生的图像。通过在特定方向上移动向量，理想的结果是仅改变目标特征并保留所有其他特征。这对于手势研究提供了理想的数据增强方法，因为它可以用于生成大量图像变化同时保持面部表情不变。然而，特征纠缠问题仍然存在，即改变一个特征不可避免地会影响其他特征，这限制了保持面部表情的能力。为了解决这一问题，我们提出在面部关键点检测模型的损失函数中添加一个附加项，以限制面部表情的变化。在现有模型的基础上，将预训练面部关键点检测模型提供的提议的人脸 landmark 检测（HFLD）损失添加到原始损失函数中。我们对现有和扩展后的模型进行了定量和定性评估，展示了我们的方法在解决纠缠问题和保持面部表情方面的有效性。在我们的实验中，我们的方法实现了表情变化最多49%的减少。此外，我们通过与最先进的模型进行比较，展示了我们方法的优势。通过增强在面部变换期间保持面部手势和表情的能力，我们提出了一种方法，用于创建具有固定表情但不同外观的人脸图像，这使它成为面部手势和表情研究中的可靠数据增强方法。