摘要
arXiv:2404.12378v2 宣告类型: replace-cross
摘要:当前的3D重建技术在从少量图像中忠实推断无限场景方面存在困难。具体来说,现有方法计算需求高,需要详细的姿态信息,并且不能可靠地重建被遮挡的区域。我们介绍了6Img-to-3D,这是一种高效可扩展的基于变压器的编码-渲染方法,用于单幅图像到3D重建。我们的方法仅使用六个向外的输入图像,在大规模无限户外驾驶场景中输出3D一致的参数化三平面。我们通过结合压缩的定制交叉注意机制和自我注意机制来解决现有方法的不足,这些机制用于三平面参数化、不同步的体渲染、场景压缩和图像特征投影。我们展示了在推理时间,仅使用单个时间戳的六个周围视图车辆图像和无需全局姿态信息,就足以重建360°场景,耗时395毫秒。我们的方法允许例如渲染第三人称图像和鸟瞰图等操作。我们的代码可在 https://github.com/continental/6Img-to-3D 获取,更多例子请访问我们的网站 https://6Img-to-3D.GitHub.io。