LLM2D
模型张量规划
Model Tensor Planning
作者: An T. Le, Khai Nguyen, Minh Nhat Vu, Jo\~ao Carvalho, Jan Peters
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.01059v1

摘要

arXiv:2505.01059v1 类型: cross 摘要: 基于采样的模型预测控制(MPC)在非线性和接触密集型的机器人任务中表现出色,但常常因局部贪婪的采样方案而遭受探索不足的问题。我们提出了\emph{模型张量规划}(MTP),一种新颖的基于采样的MPC框架,通过结构化张量采样引入高熵控制轨迹生成。通过在随机化的混合簇图上采样,并使用B样条和Akima样条插值控制轨迹,MTP 确保了平滑且全局多样化的控制候选方案。我们还提出了一种简单的$\beta$-混合策略,在修改后的交叉熵法(CEM)更新中混合局部探索性和全局探索性的样本,平衡控制细化和探索。理论上,我们证明了在张量深度和宽度趋向无限时,MTP 实现了轨迹的渐近覆盖和控制轨迹空间的最大熵。 我们的实现使用JAX完全矢量化,并与MuJoCo XLA兼容,支持 \emph{Just-in-time} (JIT) 编译和批量滚动部署,用于实时控制并支持在线领域随机化。通过在各种具有挑战性的机器人任务上的实验,包括灵巧的在手操作到类人行走,我们展示了MTP在任务成功率和控制鲁棒性上优于标准MPC和进化策略基线。设计和灵敏度消融实验确认了MTP张量采样结构、样条插值选择和混合策略的有效性。总的来说,MTP提供了一个在基于模型的规划和控制中进行稳健探索的可扩展框架。