摘要
arXiv:2410.17262v2 视频类型: replace-cross
摘要:音频驱动的头部再现是一项关键而有用的技术,适用于虚拟人类互动和电影制作。虽然近期进展主要集中在提高图像保真度和唇部同步上,但生成准确的情感表达仍然研究不足。在本文中,我们介绍了EmoGene,这是一个用于合成高保真、音频驱动的视频肖像,并包含准确情感表达的新型框架。我们的方法采用基于变分自编码器(VAE)的音频到运动模块生成面部特征点,将其与情感嵌入连接后,在运动到情感模块中产生情感特征点。这些特征点驱动基于神经辐射场(NeRF)的情感到视频模块来生成逼真的情感说话头视频。此外,我们提出了一种姿态采样方法,用于生成自然的无声状态(非说话)视频,作为无声音频输入。广泛的实验表明,EmoGene 在生成高保真情感说话头视频方面优于先前方法。