摘要
增强现实中虚拟世界与物理世界的无缝融合得益于系统对物理环境的语义“理解”。增强现实研究长期以来一直关注情境感知的潜力,展示了利用 3D 环境中的语义信息来实现各种对象级交互的新功能。与此同时,计算机视觉领域在神经视觉语言理解方面取得了飞跃,以增强环境感知,为自主任务提供支持。在这项工作中,我们介绍了一种多模态 3D 对象表示,它将语义和语言知识与几何表示相结合,从而实现用户引导的涉及物理对象的机器学习。我们首先提出了一种快速的多模态 3D 重建管道,通过将 CLIP 视觉语言特征融合到环境和对象模型中,将语言理解引入增强现实。然后,我们提出了“原位”机器学习,它与多模态表示相结合,为用户提供了新的工具和界面,使他们能够以空间和语言上有意义的方式与物理空间和对象进行交互。我们通过 Magic Leap 2 上的两个真实世界增强现实应用程序展示了所提出系统的实用性:a) 使用自然语言在物理环境中进行空间搜索,以及 b) 一个智能库存系统,用于跟踪对象随时间的变化。我们还将在 (https://github.com/cy-xu/spatially_aware_AI) 上提供我们的完整实现和演示数据,以鼓励对空间感知人工智能的进一步探索和研究。