摘要
为减轻经典强化学习(RL)框架严重依赖相同训练和测试环境的限制,提出了分布鲁棒性强化学习(DRRL),以增强在各种环境中的性能,可能包括未知的测试环境。作为获得鲁棒性的代价,DRRL涉及对一组分布进行优化,这本质上比在非鲁棒情况下对固定分布进行优化更具挑战性。现有的DRRL算法要么是基于模型的,要么无法从单一样本轨迹中学习。在本文中,我们设计了第一个完全无模型的DRRL算法,称为具有单轨迹的分布鲁棒Q学习(DRQ)。我们精心设计了一个多时间尺度框架,以充分利用每个逐步到来的样本,直接学习最优的分布鲁棒策略而无需建模环境,因此该算法可以在无模型的情况下沿着单个轨迹进行训练。尽管算法复杂,我们通过推广经典随机逼近工具提供了渐近收敛性保证。综合实验结果表明,与非鲁棒方法和其他鲁棒RL算法相比,我们提出的算法在鲁棒性和样本复杂度上具有显著优势。