摘要
近年来,模仿学习的进步在机器人控制和具身智能方面展现出巨大的潜力。然而,在不同的安装摄像机观测结果中实现鲁棒的泛化仍然是一个关键挑战。本文介绍了一个基于视频的空间感知框架,该框架利用3D空间表示来解决环境变化问题,重点是处理光照变化。我们的方法将一种新颖的图像增强技术AugBlender与在互联网规模数据上训练的最新单目深度估计模型相结合。这些组件共同构成一个旨在增强动态场景中鲁棒性和适应性的凝聚力系统。我们的结果表明,我们的方法显著提高了各种相机曝光下的成功率,而之前的模型则会出现性能崩溃。我们的研究结果突出了基于视频的空间感知模型在提高端到端机器人学习鲁棒性方面的潜力,为具身智能的可扩展、低成本解决方案铺平了道路。