LLM2D

摘要

在机器人和计算机视觉领域，由于对能够理解和与复杂环境交互的智能机器的需求不断增长，高效且准确的语义映射仍然是一个重大挑战。然而，传统的全景映射方法受到预定义语义类的限制，因此在处理新颖或不可预见的对象方面效率低下。为了应对这一限制，我们引入了统一可提示全景映射（UPPM）方法。UPPM 利用基础模型的最新进展，能够使用自然语言提示实时按需生成标签。通过将动态标签策略融入传统的全景映射技术，UPPM 在保持高水平地图重建性能的同时，在适应性和多功能性方面取得了显著改进。我们在真实世界和模拟数据集上演示了我们的方法。结果表明，UPPM 可以准确地重建场景和分割对象，同时通过自然语言交互生成丰富的语义标签。一系列消融实验验证了基于基础模型的标签优于固定标签集的优势。