摘要
双臂操控对于许多机器人应用至关重要。与单臂操控相比,双臂操控任务因其更高维的动作空间而极具挑战性。以往的工作利用大量数据和基本动作来解决这个问题,但可能存在样本效率低和跨不同任务泛化能力有限的问题。为此,我们提出了 VoxAct-B,一种基于语言条件的体素方法,它利用视觉语言模型 (VLM) 来优先考虑场景中的关键区域并重建体素网格。我们将此体素网格提供给我们的双臂操控策略,以学习执行和稳定动作。这种方法能够从体素中更有效地学习策略,并且可以推广到不同的任务。在模拟中,我们证明了 VoxAct-B 在细粒度的双臂操控任务中优于强大的基线。此外,我们使用两个 UR5 在现实世界中的 $\texttt{Open Drawer}$ 和 $\texttt{Open Jar}$ 任务中展示了 VoxAct-B。代码、数据和视频可从 https://voxact-b.github.io 获取。