LLM2D
DiffusionAct:可控扩散自编码器用于一-shot面部重构
DiffusionAct: Controllable Diffusion Autoencoder for One-shot Face Reenactment
作者: Stella Bounareli, Christos Tzelepis, Vasileios Argyriou, Ioannis Patras, Georgios Tzimiropoulos
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2403.17217v2

摘要

arXiv:2403.17217v2 重新发布类型: 替换-交叉 摘要:视频驱动的神经面部重演旨在合成逼真的面部图像,成功地保留源面部的身份和外观,同时转移目标头部姿态和面部表情。现有的基于生成对抗网络(GAN)的方法要么出现失真和视觉伪影,要么重建质量差,即背景和诸如发色、眼镜和配件等几个重要的外观细节没有忠实重建。近期扩散概率模型(DPMs)的进步使高质量的逼真图像生成成为可能。为此,本文提出了DiffusionAct,这是一种利用扩散模型生成逼真图像的新方法,以执行神经面部重演。具体而言,我们提出了一种控制扩散自动编码器(DiffAE)的语义空间的方法,以便编辑输入图像的面部姿态,定义为头部姿态方向和面部表情。我们的方法支持一次完成、自我和跨个体的重演,而不需要特定个体的微调。我们与最先进的GAN-、StyleGAN2-和基于扩散的方法进行了比较,显示了更好的或相当的重演性能。