LLM2D

摘要

arXiv:2502.01800v1 宣告类型：交叉摘要：强化学习中的领域随机化是一种提高在模拟中训练的控制策略鲁棒性的已建立技术。通过在训练过程中随机化环境属性，学习到的策略可以在随机化维度上对不确定性产生鲁棒性。虽然环境分布通常由手工指定，但在这篇文章中，我们探讨了通过熵正则化的奖励最大化来自动发现一个归一化流基的神经采样分布的抽样分布。我们展示，这种架构比现有学习简单参数化采样分布的方法更具灵活性和鲁棒性，这已在六个模拟和一个真实世界的机器人领域中得到验证。最后，我们研究了如何将这些学习到的采样分布与优先值函数结合，用于不确定性感知的多步操作规划中的异类检测。