LLM2D

摘要

arXiv:2505.01059v1 类型: cross 摘要: 基于采样的模型预测控制(MPC)在非线性和接触密集型的机器人任务中表现出色，但常常因局部贪婪的采样方案而遭受探索不足的问题。我们提出了\emph{模型张量规划}(MTP)，一种新颖的基于采样的MPC框架，通过结构化张量采样引入高熵控制轨迹生成。通过在随机化的混合簇图上采样，并使用B样条和Akima样条插值控制轨迹，MTP 确保了平滑且全局多样化的控制候选方案。我们还提出了一种简单的$\beta$-混合策略，在修改后的交叉熵法(CEM)更新中混合局部探索性和全局探索性的样本，平衡控制细化和探索。理论上，我们证明了在张量深度和宽度趋向无限时，MTP 实现了轨迹的渐近覆盖和控制轨迹空间的最大熵。我们的实现使用JAX完全矢量化，并与MuJoCo XLA兼容，支持 \emph{Just-in-time} (JIT) 编译和批量滚动部署，用于实时控制并支持在线领域随机化。通过在各种具有挑战性的机器人任务上的实验，包括灵巧的在手操作到类人行走，我们展示了MTP在任务成功率和控制鲁棒性上优于标准MPC和进化策略基线。设计和灵敏度消融实验确认了MTP张量采样结构、样条插值选择和混合策略的有效性。总的来说，MTP提供了一个在基于模型的规划和控制中进行稳健探索的可扩展框架。