摘要
arXiv:2505.07819v1 Announce Type: cross
摘要:视觉运动策略学习在机器人的操作中取得了显著进展,最近的方法大多依赖生成模型来建模动作分布。然而,这些方法往往忽略了视觉感知与动作预测之间的关键耦合。在这项工作中,我们引入了**三重层次扩散策略**(**H$^3$DP**),这是一种新颖的视觉运动学习框架,明确地结合了层次结构以强化视觉特征与动作生成之间的集成。H$^3$DP 包含**3**个层次结构:(1)深度感知的输入层,基于深度信息组织 RGB-D 观察;(2)多尺度视觉表示,编码不同粒度的语义特征;(3)层次条件下的扩散过程,将粗到细的动作生成与相应的视觉特征对齐。广泛的实验证实,H$^3$DP 在**44**个仿真任务中相对于基线方法平均提高了**27.5%**的相对性能,且在**4**个具有挑战性的双臂实际操作任务中表现出优越的性能。项目页面:https://lyy-iiis.github.io/h3dp/。