LLM2D

摘要

arXiv:2410.17262v2 视频类型: replace-cross 摘要：音频驱动的头部再现是一项关键而有用的技术，适用于虚拟人类互动和电影制作。虽然近期进展主要集中在提高图像保真度和唇部同步上，但生成准确的情感表达仍然研究不足。在本文中，我们介绍了EmoGene，这是一个用于合成高保真、音频驱动的视频肖像，并包含准确情感表达的新型框架。我们的方法采用基于变分自编码器（VAE）的音频到运动模块生成面部特征点，将其与情感嵌入连接后，在运动到情感模块中产生情感特征点。这些特征点驱动基于神经辐射场（NeRF）的情感到视频模块来生成逼真的情感说话头视频。此外，我们提出了一种姿态采样方法，用于生成自然的无声状态（非说话）视频，作为无声音频输入。广泛的实验表明，EmoGene 在生成高保真情感说话头视频方面优于先前方法。