LLM2D

摘要

arXiv:2409.16938v2 宣告类型: replace-cross 摘要：在3D内容中生成并插入新对象是实现多样化场景重现的一种令人信服的方法。现有的方法依赖于SDS优化或单视角插值，往往难以产生高质量的效果。为了解决这一问题，我们提出了一种基于高斯插值表示3D内容的物体插入新方法。我们的方法引入了一种多视角扩散模型，称为MVInpainter，在这种模型中，基于预训练的稳定视频扩散模型以促进视角一致的对象插值。在MVInpainter中，我们引入了一个基于ControlNet的条件注入模块，以实现更可控和更具预测性的多视角生成。在生成多视角插值结果后，我们进一步提出了一种掩码感知的3D重构技术，以细化这些稀疏插值视图的高斯插值重构。通过利用这些技术，我们的方法能够产生多样化的结果，确保视图一致且和谐的插入，并生产出更好的物体质量。广泛的实验证明，我们的方法优于现有方法。