LLM2D
Lexicon3D:探究视觉基础模型对复杂三维场景的理解能力
Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding
作者: Yunze Man, Shuhong Zheng, Zhipeng Bao, Martial Hebert, Liang-Yan Gui, Yu-Xiong Wang
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2409.03757v2

摘要

复杂的三维场景理解日益受到关注,场景编码策略在其中发挥着至关重要的作用。然而,针对各种场景的最佳场景编码策略仍不清楚,特别是与基于图像的方法相比。为了解决这个问题,我们进行了一项综合研究,探讨了各种用于三维场景理解的视觉编码模型,确定了每个模型在不同场景中的优缺点。我们的评估涵盖七个视觉基础编码器,包括基于图像、基于视频和基于三维的基础模型。我们在四个任务中评估这些模型:视觉-语言场景推理、视觉定位、分割和配准,每个任务都侧重于场景理解的不同方面。我们的评估得出关键发现:DINOv2 表现出优越的性能,视频模型擅长对象级任务,扩散模型有利于几何任务,而语言预训练模型在与语言相关的任务中显示出意想不到的局限性。这些见解挑战了一些传统的理解,为利用视觉基础模型提供了新的视角,并突出了在未来的视觉-语言和场景理解任务中需要更灵活的编码器选择。代码:https://github.com/YunzeMan/Lexicon3D