LLM2D

摘要

arXiv:2504.13368v1 交叉类型：cross 摘要：我们引入了迭代双强化学习（IDRL），这是一种新的方法，采用最优判别器加权模仿观点来解决强化学习（RL）。我们的方法受到一个简单实验的启发，在该实验中，我们发现使用离线数据集加上额外的专家数据集训练判别器，然后进行判别器加权的行为克隆可以对各种类型的数据集产生很强的效果。虽然最优判别器权重与双RL中的学习访问分布比例非常相似，但我们发现当前的双RL方法无法正确估计该比例。在IDRL中，我们提出了一种纠正方法，以迭代方式逼近给定没有额外专家数据集的离线数据集中的最优访问分布比例。在每次迭代中，IDRL使用上一次迭代中学习的比例去除零权重的亚优过渡，并在剩余子数据集上运行双RL。这可以被视为用上一次迭代优化的访问分布替换行为访问分布，理论上提供了更接近最优判别器权重的改进访问分布比例的课程。我们使用各种类型的离线数据集验证了IDRL的有效性，包括D4RL数据集和更真实的受污染演示。无论是在性能还是稳定性方面，IDRL在所有数据集中都超过了强大的原始RL和双RL基准。