LLM2D
$H^{\mathbf{3}}$DP:三重层次扩散策略用于视知觉运动学习
H$^{\mathbf{3}}$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning
作者: Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.07819v1

摘要

arXiv:2505.07819v1 Announce Type: cross 摘要:视觉运动策略学习在机器人的操作中取得了显著进展,最近的方法大多依赖生成模型来建模动作分布。然而,这些方法往往忽略了视觉感知与动作预测之间的关键耦合。在这项工作中,我们引入了**三重层次扩散策略**(**H$^3$DP**),这是一种新颖的视觉运动学习框架,明确地结合了层次结构以强化视觉特征与动作生成之间的集成。H$^3$DP 包含**3**个层次结构:(1)深度感知的输入层,基于深度信息组织 RGB-D 观察;(2)多尺度视觉表示,编码不同粒度的语义特征;(3)层次条件下的扩散过程,将粗到细的动作生成与相应的视觉特征对齐。广泛的实验证实,H$^3$DP 在**44**个仿真任务中相对于基线方法平均提高了**27.5%**的相对性能,且在**4**个具有挑战性的双臂实际操作任务中表现出优越的性能。项目页面:https://lyy-iiis.github.io/h3dp/。