LLM2D

摘要

三维视觉语言接地，其重点在于将语言与三维物理环境对齐，是具身智能体发展中的基石。与二维领域最近的进展相比，将语言接地到三维场景中面临着几个重大挑战：(i) 由于物体配置多样、属性丰富和关系错综复杂，三维场景固有的复杂性；(ii) 支持接地学习的成对三维视觉语言数据的稀缺性；(iii) 缺乏统一的学习框架来从接地三维数据中提取知识。在这项工作中，我们旨在通过考察在室内环境中系统地扩展三维视觉语言学习的潜力来解决三维视觉语言中的这三个主要挑战。我们介绍了第一个百万规模的三维视觉语言数据集 SceneVerse，它包含约 68,000 个三维室内场景，并包含来自人类注释和我们可扩展的场景图生成方法的 250 万个视觉语言对。我们证明了这种扩展允许使用一个统一的预训练框架，即场景接地预训练 (GPS)，用于三维视觉语言学习。通过大量的实验，我们展示了 GPS 的有效性，在所有现有的三维视觉接地基准测试中都取得了最先进的性能。SceneVerse 和 GPS 的巨大潜力通过在具有挑战性的三维视觉语言任务中的零样本迁移实验得到揭示。项目网站：https://scene-verse.github.io。