摘要
arXiv:2403.17217v2 重新发布类型: 替换-交叉
摘要:视频驱动的神经面部重演旨在合成逼真的面部图像,成功地保留源面部的身份和外观,同时转移目标头部姿态和面部表情。现有的基于生成对抗网络(GAN)的方法要么出现失真和视觉伪影,要么重建质量差,即背景和诸如发色、眼镜和配件等几个重要的外观细节没有忠实重建。近期扩散概率模型(DPMs)的进步使高质量的逼真图像生成成为可能。为此,本文提出了DiffusionAct,这是一种利用扩散模型生成逼真图像的新方法,以执行神经面部重演。具体而言,我们提出了一种控制扩散自动编码器(DiffAE)的语义空间的方法,以便编辑输入图像的面部姿态,定义为头部姿态方向和面部表情。我们的方法支持一次完成、自我和跨个体的重演,而不需要特定个体的微调。我们与最先进的GAN-、StyleGAN2-和基于扩散的方法进行了比较,显示了更好的或相当的重演性能。