LLM2D

摘要

arXiv:2502.08503v1 评测类型: 新摘要: 在这项工作中，我们识别出了3D LLM评估中存在的“2D欺骗”问题，这些任务可能通过使用点云渲染图像的VLMs（视觉语言模型）轻易解决，从而暴露了3D LLMs独特3D能力的无效评估。我们在多个3D LLM基准测试中测试了VLM的性能，并以此为参考，提出了更好地评估真实3D理解的原则。我们还建议在评估3D LLMs时明确分离3D能力与其他1D或2D方面。