LLM2D

摘要

arXiv:2504.08604v1 宣告类型: cross 摘要: 深度强化学习可以从模拟器无缝地转移敏捷的运动和导航技能到现实世界。然而，使用领域随机化或对抗方法弥合模拟器与现实之间的差距往往需要专家物理知识以确保政策稳健性。即使如此，最先进的模拟器在捕捉每个现实世界细节方面可能仍有所不足，重建的环境也可能由于各种感知不确定性而引入误差。为了解决这些挑战，我们提出了神经保真度校准（NFC），这是一种新颖的框架，利用条件分数扩散模型在机器人执行过程中在线校准模拟器的物理系数和剩余保真度领域。具体而言，剩余保真度反映了仿真模型相对于真实世界动力学的变化，并捕获了感知环境的不确定性，使我们能够在推断出的分布下采样现实环境进行策略调整。我们的框架在三个方面具有信息性和适应性：(a) 我们仅在异常场景下微调预训练策略，(b) 我们在线构建基于预训练NFC的建议先验的连续NFC，减少了扩散模型的训练负担，(c) 当NFC的不确定性高且可能损害政策改进时，我们利用乐观探索来启用幻觉策略优化。我们的框架在高维参数空间的各种机器人中，相对于最先进的方法实现了更优的模拟器校准精度。我们研究了剩余保真度对政策改进的关键贡献，在模拟和现实世界实验中进行了研究。值得注意的是，我们的方法在具有挑战性的现实世界条件中展示了稳健的机器人导航能力，例如在雪地表面上车轮轴损坏的情况。