LLM2D

摘要

arXiv:2504.20026v1 宣布类型: cross 摘要: 我们提出了大型逆渲染模型 (LIRM)，这是一种在不到一秒钟的时间内联合重构高质量形状、材料和视点依赖辐射场的变压器架构。我们的模型建立在最近的大型重构模型 (LRMs) 之上，这些模型在稀疏视图重构质量方面达到了最先进的水平。然而，现有的 LRMs 在准确重构未见部分时存在问题，并且无法恢复光泽外观或生成可被标准图形引擎消费的可重新照明的 3D 内容。为了解决这些局限性，我们做出了三项关键技术贡献，以构建一种更为实用的多视图 3D 重构框架。首先，我们引入了一个更新模型，使我们能够逐步添加更多的输入视图以改进我们的重构。第二，我们提出了六平面神经 SDF 表示以更好地恢复详细的纹理、几何形状和材料参数。第三，我们开发了一种新颖的神经方向嵌入机制以处理视点依赖效应。通过在专门设计的从粗到细训练方案上训练于大规模形状和材料数据集上，我们的模型取得了令人信服的结果。在几何形状和重新照明准确性方面，它与基于优化的密集视图逆渲染方法相比表现更优，但所需推断时间仅为前者的几分之一。