LLM2D

摘要

arXiv:2502.06491v2 宣告类型: replace-cross 摘要: 基于模型的离线强化学习(MORL)旨在通过利用从现有数据集推导出的动力学模型来学习一个策略。通过保守量化动力学模型，大多数现有的MORL工作生成的轨迹近似于真实数据分布，以便利用当前信息（例如，时间步t的状态和动作）来促进策略学习。然而，这些工作忽视了历史信息对环境动力学的影响，导致生成不可靠的轨迹，这些轨迹可能不符合真实数据分布。在本文中，我们提出了一种新的MORL算法——可靠性保证变换器（Reliability-guaranteed Transformer，简称RT），它可以通过计算生成轨迹的累积可靠性（即，使用加权变异距离远离真实数据）来消除不可靠的轨迹。此外，通过采样高奖励的候选动作，RT可以从现有的离线数据高效地生成高回报轨迹。我们从理论上证明了RT在策略学习中的性能保证，并在几个基准任务上通过实验证明了其相比于最先进的基于模型的方法的效果。