LLM2D

摘要

arXiv:2409.13180v1 公告类型: 交叉摘要: 视频驱动的3D面部动画迁移旨在驱动虚拟形象再现演员的表情。现有方法通过约束几何和感知一致性取得了显著成果。然而，几何约束（如基于面部标志点设计的约束）不足以捕捉微妙的情感，而基于分类任务训练的表情特征缺乏对复杂情感的精细粒度。为此，我们提出了\textbf{FreeAvatar}，一种仅依赖于我们学习到的表情表示的鲁棒面部动画迁移方法。具体而言，FreeAvatar包含两个主要组件：表情基础模型和面部动画迁移模型。在第一个组件中，我们首先通过面部重建任务构建面部特征空间，然后通过探索不同表情之间的相似性来优化表情特征空间。得益于在大量未标记面部图像和重新收集的表情比较数据集上的训练，我们的模型能够自由且有效地适应任何自然场景中的输入面部图像。在面部动画迁移组件中，我们提出了一种新颖的表情驱动多虚拟形象动画器，该动画器首先将表情语义映射到3D虚拟形象的面部控制参数，然后在输入和输出图像之间施加感知约束以保持表情一致性。为了使整个过程可微分，我们采用了一个训练有素的神经渲染器将控制参数转换为相应的图像。此外，与之前需要为每个虚拟形象单独解码器的方法不同，我们提出了一种动态身份注入模块，允许在单一网络中联合训练多个虚拟形象。