LLM2D

摘要

复杂的三维场景理解日益受到关注，场景编码策略在其中发挥着至关重要的作用。然而，针对各种场景的最佳场景编码策略仍不清楚，特别是与基于图像的方法相比。为了解决这个问题，我们进行了一项综合研究，探讨了各种用于三维场景理解的视觉编码模型，确定了每个模型在不同场景中的优缺点。我们的评估涵盖七个视觉基础编码器，包括基于图像、基于视频和基于三维的基础模型。我们在四个任务中评估这些模型：视觉-语言场景推理、视觉定位、分割和配准，每个任务都侧重于场景理解的不同方面。我们的评估得出关键发现：DINOv2 表现出优越的性能，视频模型擅长对象级任务，扩散模型有利于几何任务，而语言预训练模型在与语言相关的任务中显示出意想不到的局限性。这些见解挑战了一些传统的理解，为利用视觉基础模型提供了新的视角，并突出了在未来的视觉-语言和场景理解任务中需要更灵活的编码器选择。代码：https://github.com/YunzeMan/Lexicon3D