LLM2D

摘要

arXiv:2412.10209v2 Announce Type: replace-cross 摘要：我们提出了一种从智能手机等商品设备拍摄的一目视频中重建可动画化的3D高斯化身的新型方法。由于观察限制，从此类录制中重建逼真的3D头部化身极具挑战性，这会导致未观察到区域的约束不足，并在新视角中产生伪影。为了解决这个问题，我们引入了一种多视角头扩散模型，利用其先验知识来填充缺失区域，并确保Gaussian splatting渲染视图的一致性。为了实现精确的视角控制，我们使用基于FLAME的头部重建渲染的法线图，提供逐像素对齐的归纳偏置。我们还根据从输入图像中提取的VAE特征条件化扩散模型，以保留面部身份和外观细节。对于高斯化身的重建，我们通过使用逐次去噪的图像作为伪真实值来提炼多视角扩散先验，有效地缓解了色彩饱和过度的问题。为了进一步提高逼真度，我们在解码之前对去噪的潜在特征应用潜在上采样先验进行细化。我们使用NeRSemble数据集评估了我们的方法，结果显示GAF在新视角合成中表现优于现有最先进的方法。此外，我们还展示了从商品设备拍摄的一目视频中更高质量的化身重建。