摘要
arXiv:2504.01901v1 交叉公告类型
摘要:大型多模态模型(LMMs)在2D图像和视频上的迅速发展促进了对3D场景解释的模型适应努力。然而,缺乏大规模的3D视觉-语言数据集构成了一个重大障碍。为了解决这一问题,典型的方法集中在通过设计3D输入级场景表示将3D意识注入2D LMMs中。本文提供了新的视角。我们提出了具有3D意识的重建视觉指令微调(Ross3D),将3D意识的视觉监督集成到训练过程中。具体而言,它整合了跨视图和全局视图重建。前者要求通过从其他视图聚合重叠信息来重建遮蔽视图。后者旨在从所有可用视图中聚合信息以恢复鸟瞰图图像,从而为整个场景提供全面的概览。从实证上讲,Ross3D在各种3D场景理解基准测试中达到了最先进的性能。更重要的是,我们的半监督实验展示了在利用大量未标记的3D视觉仅数据方面巨大的潜力。