LLM2D

摘要

为减轻经典强化学习（RL）框架严重依赖相同训练和测试环境的限制，提出了分布鲁棒性强化学习（DRRL），以增强在各种环境中的性能，可能包括未知的测试环境。作为获得鲁棒性的代价，DRRL涉及对一组分布进行优化，这本质上比在非鲁棒情况下对固定分布进行优化更具挑战性。现有的DRRL算法要么是基于模型的，要么无法从单一样本轨迹中学习。在本文中，我们设计了第一个完全无模型的DRRL算法，称为具有单轨迹的分布鲁棒Q学习（DRQ）。我们精心设计了一个多时间尺度框架，以充分利用每个逐步到来的样本，直接学习最优的分布鲁棒策略而无需建模环境，因此该算法可以在无模型的情况下沿着单个轨迹进行训练。尽管算法复杂，我们通过推广经典随机逼近工具提供了渐近收敛性保证。综合实验结果表明，与非鲁棒方法和其他鲁棒RL算法相比，我们提出的算法在鲁棒性和样本复杂度上具有显著优势。