摘要
arXiv:2403.09326v3 公告类型: 替换-交叉 摘要: 当前的文本到头像生成方法通常依赖于隐式表示(例如,NeRF、SDF 和 DMTet),导致艺术家难以在图形软件中轻松编辑和动画化的 3D 内容。本文介绍了一种新颖的框架,用于从文本指导生成风格化的头部头像,该框架利用局部可学习的网格变形和 2D 扩散先验来实现高质量的数字资产,以进行属性保留的操作。给定一个模板网格,我们的方法使用每面雅可比矩阵表示网格变形,并使用可学习的向量场自适应地调制局部变形。该向量场在保留顶点旋转的同时实现各向异性缩放,从而更好地表达身份和几何细节。我们采用基于地标和轮廓的正则化项,以平衡从多视角生成头像的表现力和合理性,而不依赖于任何特定的形状先验。我们的框架可以生成逼真的形状和纹理,这些形状和纹理可以通过文本进一步编辑,同时支持使用模板网格中保留的属性(如 3DMM 参数、混合形状和 UV 坐标)进行无缝编辑。广泛的实验表明,我们的框架可以生成多样且富有表现力的头部头像,这些头像具有高质量的网格,艺术家可以在图形软件中轻松操作,从而促进下游应用,如高效的资产创建和属性保留的动画制作。