LLM2D
EC-Diffuser:基于实体中心行为生成的多对象 manipulation
EC-Diffuser: Multi-Object Manipulation via Entity-Centric Behavior Generation
作者: Carl Qi, Dan Haramati, Tal Daniel, Aviv Tamar, Amy Zhang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2412.18907v2

摘要

arXiv:2412.18907v2 宣告类型:替换 摘要:物体操作是日常任务中的一个常见组成部分,但从高维观察中学习操作物体存在显著挑战。这些挑战在多物体环境中尤为突出,因为状态空间和期望行为的组合复杂性增加了难度。虽然最近的方法利用大规模离线数据从像素观察中训练模型,并通过扩展实现性能提升,但这些方法在受限的网络和数据集大小下难以实现组件级泛化。为了解决这些问题,我们提出了一种新的行为克隆(BC)方法,该方法利用物体为中心的表示和实体为中心的Transformer,并结合扩散优化,使从离线图像数据中高效学习成为可能。我们的方法首先将观察分解为物体为中心的表示,然后由我们的实体为中心的Transformer处理,该Transformer在物体级别计算注意力,同时预测物体动力学和代理的动作。结合扩散模型捕捉多模式行为分布的能力,这在多物体任务中带来了显著的性能提升,并且更重要的是,使组件级泛化成为可能。我们展示了能够在没见过的物体配置和目标的新组合任务中进行零样本泛化的BC代理,包括在训练中看到的物体数量更多。我们提供了视频滚动更新:https://sites.google.com/view/ec-diffuser。