LLM2D

摘要

arXiv:2403.17217v2 重新发布类型: 替换-交叉摘要：视频驱动的神经面部重演旨在合成逼真的面部图像，成功地保留源面部的身份和外观，同时转移目标头部姿态和面部表情。现有的基于生成对抗网络（GAN）的方法要么出现失真和视觉伪影，要么重建质量差，即背景和诸如发色、眼镜和配件等几个重要的外观细节没有忠实重建。近期扩散概率模型（DPMs）的进步使高质量的逼真图像生成成为可能。为此，本文提出了DiffusionAct，这是一种利用扩散模型生成逼真图像的新方法，以执行神经面部重演。具体而言，我们提出了一种控制扩散自动编码器（DiffAE）的语义空间的方法，以便编辑输入图像的面部姿态，定义为头部姿态方向和面部表情。我们的方法支持一次完成、自我和跨个体的重演，而不需要特定个体的微调。我们与最先进的GAN-、StyleGAN2-和基于扩散的方法进行了比较，显示了更好的或相当的重演性能。