摘要
arXiv:2502.01800v1 宣告类型:交叉
摘要:强化学习中的域随机化是一项成熟的提高在仿真中训练的控制策略鲁棒性的技术。通过在训练过程中随机化环境属性,学习到的策略可以在随机化维度上对不确定性产生鲁棒性。虽然环境分布通常需要手动指定,但在本文中,我们探讨了通过熵正则化奖励最大化的方法自动发现采样分布的途径。该方法使用归一化流神经采样分布。我们证明了这种架构比学习更简单、参数化的采样分布的方法更具灵活性和鲁棒性,这一点在六个仿真实例和一个现实世界的机器人领域得到了验证。最后,我们探讨了如何结合有先验值函数的学习到的采样分布,用于不确定性感知的多步骤操作规划中的异常分布检测。