LLM2D

摘要

arXiv:2504.01901v1 交叉公告类型摘要：大型多模态模型（LMMs）在2D图像和视频上的迅速发展促进了对3D场景解释的模型适应努力。然而，缺乏大规模的3D视觉-语言数据集构成了一个重大障碍。为了解决这一问题，典型的方法集中在通过设计3D输入级场景表示将3D意识注入2D LMMs中。本文提供了新的视角。我们提出了具有3D意识的重建视觉指令微调（Ross3D），将3D意识的视觉监督集成到训练过程中。具体而言，它整合了跨视图和全局视图重建。前者要求通过从其他视图聚合重叠信息来重建遮蔽视图。后者旨在从所有可用视图中聚合信息以恢复鸟瞰图图像，从而为整个场景提供全面的概览。从实证上讲，Ross3D在各种3D场景理解基准测试中达到了最先进的性能。更重要的是，我们的半监督实验展示了在利用大量未标记的3D视觉仅数据方面巨大的潜力。