LLM2D

摘要

我们提出了Habitat-Matterport 3D开放词汇对象目标导航数据集（HM3D-OVON），这是一个大规模基准，扩展了先前对象目标导航（ObjectNav）基准的范围和语义范围。利用HM3DSem数据集，HM3D-OVON包含了来自真实世界环境的逼真3D扫描中超过15,000个家庭对象的注释实例，涵盖379个不同类别。与早期将目标对象限制在预定义的6-20个类别中的ObjectNav数据集不同，HM3D-OVON支持在测试时通过自由形式语言定义开放目标集的模型训练和评估。通过这种开放词汇表的表述，HM3D-OVON推动了学习视觉语义导航行为的发展，这些行为能够以开放词汇表的方式搜索文本指定的任何对象。此外，我们系统地评估和比较了几种不同类型的方法在HM3D-OVON上的表现。我们发现，HM3D-OVON可以用于训练一个开放词汇表的ObjectNav代理，该代理在性能上不仅更高，而且对定位和执行噪声更具鲁棒性，优于当前最先进的ObjectNav方法。我们希望我们的基准和基线结果将激发对开发能够通过自由形式语言导航真实世界空间以寻找家庭对象的具身代理的兴趣，朝着更灵活和类人化的语义视觉导航迈出一步。代码和视频可在以下网址获取：naoki.io/ovon。