LLM2D

摘要

arXiv:2505.07819v1 Announce Type: cross 摘要：视觉运动策略学习在机器人的操作中取得了显著进展，最近的方法大多依赖生成模型来建模动作分布。然而，这些方法往往忽略了视觉感知与动作预测之间的关键耦合。在这项工作中，我们引入了**三重层次扩散策略**（**H$^3$DP**），这是一种新颖的视觉运动学习框架，明确地结合了层次结构以强化视觉特征与动作生成之间的集成。H$^3$DP 包含**3**个层次结构：（1）深度感知的输入层，基于深度信息组织 RGB-D 观察；（2）多尺度视觉表示，编码不同粒度的语义特征；（3）层次条件下的扩散过程，将粗到细的动作生成与相应的视觉特征对齐。广泛的实验证实，H$^3$DP 在**44**个仿真任务中相对于基线方法平均提高了**27.5%**的相对性能，且在**4**个具有挑战性的双臂实际操作任务中表现出优越的性能。项目页面：https://lyy-iiis.github.io/h3dp/。