LLM2D

摘要

3D 场景可供性接地旨在定位 3D 环境中的交互区域，这对具身智能体与其周围环境进行智能交互至关重要。大多数现有方法通过基于静态几何结构和视觉外观将语义映射到 3D 实例来实现这一点。这种被动策略限制了智能体主动感知和参与环境的能力，使其依赖于预定义的语义指令。相比之下，人类通过观察和模仿他人如何与其周围环境互动来发展复杂的互动技能。为了赋予模型这种能力，我们引入了一项新任务：从自我中心交互中接地 3D 场景可供性，其目标是根据交互的自我中心视频识别 3D 场景中的相应可供性区域。该任务面临着空间复杂性和跨多个来源的对齐复杂性挑战。为了应对这些挑战，我们提出了基于自我中心交互的 3D 场景可供性接地 (Ego-SAG) 框架，该框架利用交互意图来引导模型关注与交互相关的子区域，并通过双向查询解码器机制对来自不同来源的可供性特征进行对齐。此外，我们引入了自我中心视频-3D 场景可供性数据集 (VSAD)，涵盖各种常见交互类型和不同的 3D 环境，以支持此任务。在 VSAD 上进行的大量实验验证了所提任务的可行性和我们方法的有效性。