摘要
arXiv:2407.04285v3 通知类型: replace-cross
摘要:通过离线强化学习(RL)从离线数据集中学习策略有望在避免在线交互中的不安全和高昂成本的情况下扩展数据驱动的决策制定。然而,来自传感器或人类收集的现实世界数据通常包含噪声和错误,给现有的离线 RL 方法带来了重大挑战,尤其是当现实世界数据受限时。我们的研究揭示了先前专注于根据时间差学习进行离线 RL 方法适应的研究,在数据受限且受到污染的情况下仍然效果不佳。相反,我们发现像决策变换器这样的基本序列建模方法在数据污染的情况下表现出色,即使没有专门的修改也是如此。为了充分利用序列建模的潜力,我们通过引入三种简单而有效的鲁棒技术提出了Robust Decision Transformer (RDT):嵌入dropout以提高模型对错误输入的鲁棒性,高斯加权学习以减轻污染标签的影响,以及迭代数据校正以从源头消除受污染的数据。在MuJoCo、Kitchen和Adroit任务上的大量实验表明,在各种数据污染场景下,RDT 的性能优于以往的方法。此外,RDT 在结合训练时的数据污染和测试时的观察扰动的更具有挑战性的设置中也表现出显著的鲁棒性。这些结果突显了序列建模在学习受噪声或污染的离线数据集方面的潜力,从而促进离线 RL 在现实世界场景中的可靠应用。我们的代码可在 https://github.com/jiawei415/RobustDecisionTransformer 获得。