摘要
arXiv:2504.12292v1 声明类型: cross
摘要:从单目图像和视频中实时准确地重建人体头部是众多视觉应用的基础。由于大规模的真实三维数据难以获取,之前的方法试图以半监督的方式学习大量可用的二维视频数据。通常,这涉及使用可微网格渲染,尽管其效果较好,但也存在局限性。为改进这一方法,我们提出了SHeaP(Self-supervised Head Geometry Predictor Learned via 2D Gaussians)方法。给定一个源图像,我们预测一个3DMM网格和一组与该网格绑定的高斯分布。然后,我们重新动画化这个绑定的头部avatar,使其匹配目标帧,并以光度损失反向传播来优化3DMM和高斯分布预测网络。我们发现,使用高斯分布进行渲染显著提高了这种半监督方法的有效性。仅使用2D数据进行训练,我们的方法在NoW基准(针对中性面部)和一个新基准(针对非中性表达)上的几何评估中均超过了现有的半监督方法。我们的方法还能生成高度表达性的网格,优于当前最先进的表情分类方法。