LLM2D

摘要

arXiv:2403.09326v3 公告类型: 替换-交叉摘要: 当前的文本到头像生成方法通常依赖于隐式表示（例如，NeRF、SDF 和 DMTet），导致艺术家难以在图形软件中轻松编辑和动画化的 3D 内容。本文介绍了一种新颖的框架，用于从文本指导生成风格化的头部头像，该框架利用局部可学习的网格变形和 2D 扩散先验来实现高质量的数字资产，以进行属性保留的操作。给定一个模板网格，我们的方法使用每面雅可比矩阵表示网格变形，并使用可学习的向量场自适应地调制局部变形。该向量场在保留顶点旋转的同时实现各向异性缩放，从而更好地表达身份和几何细节。我们采用基于地标和轮廓的正则化项，以平衡从多视角生成头像的表现力和合理性，而不依赖于任何特定的形状先验。我们的框架可以生成逼真的形状和纹理，这些形状和纹理可以通过文本进一步编辑，同时支持使用模板网格中保留的属性（如 3DMM 参数、混合形状和 UV 坐标）进行无缝编辑。广泛的实验表明，我们的框架可以生成多样且富有表现力的头部头像，这些头像具有高质量的网格，艺术家可以在图形软件中轻松操作，从而促进下游应用，如高效的资产创建和属性保留的动画制作。