LLM2D

摘要

人类能够毫不费力地将常识知识与来自视觉和触觉的感官输入相结合，以理解周围环境。为了模拟这种能力，我们引入了 FusionSense，这是一个新颖的 3D 重建框架，使机器人能够将来自基础模型的先验知识与来自视觉和触觉传感器的稀疏观测相融合。FusionSense 解决了三个关键挑战：（i）机器人如何有效地获取关于周围场景和物体的稳健全局形状信息？（ii）机器人如何使用几何和常识先验知识战略性地选择物体上的接触点？（iii）触觉信号等部分观测如何改进物体的整体表示？我们的框架采用 3D 高斯散点作为核心表示，并结合了涉及全局结构构建、物体视觉外壳修剪和局部几何约束的分层优化策略。这一进步在具有传统上具有挑战性的物体的环境中实现了快速且稳健的感知，这些物体是透明的、反射的或黑暗的，从而能够执行更多下游操作或导航任务。在真实世界数据上的实验表明，我们的框架优于以前最先进的稀疏视图方法。所有代码和数据都在项目网站上开源。