LLM2D

摘要

arXiv:2409.03757v3 宣告类型：替换交叉摘要：复杂3D场景理解引起了越来越多的关注，场景编码策略在这方面的成功中起着关键作用。然而，各种场景下的最优场景编码策略仍然不清楚，尤其是在与基于图像的对应策略相比时。为了解决这一问题，我们进行了一个全面的研究，探讨了各种视觉编码模型在3D场景理解中的应用，识别了每种模型在不同场景中的优势和局限性。我们的评估涵盖了七个视觉基础编码器，包括基于图像的、基于视频的和3D基础模型。我们在这四个任务中评估这些模型：视觉语言场景推理、视觉定位、分割和注册，每个任务都侧重于场景理解的不同方面。我们的评估得到了关键发现：DINOv2展示了卓越的性能，视频模型在对象级别的任务中表现出色，扩散模型受益于几何任务，而语言预训练模型在语言相关任务中表现出意外的局限性。这些见解挑战了一些传统理解，提供了利用视觉基础模型的新视角，并强调了在未来视觉语言和场景理解任务中需要更灵活的编码器选择的必要性。代码：https://github.com/YunzeMan/Lexicon3D