LLM2D

摘要

arXiv:2504.11944v1 类型: cross 摘要：离线强化学习（RL）通过预先收集的数据集来学习有效的策略，为那些在线交互具有风险或成本的应用提供了一种实际的解决方案。基于模型的方法特别适合离线RL，这得益于它们的数据效率和泛化能力。然而，由于固有的模型误差，基于模型的方法往往通过基于启发式不确定性估计的人工保守来训练模型，这种不确定性估计可能不可靠。在本文中，我们引入了VIPO，这是一种新颖的基于模型的离线RL算法，它通过价值估计的自监督反馈来增强模型训练。具体而言，该模型通过另外最小化从离线数据直接学习的价值与从模型估计的价值之间的不一致性来学习。我们从多个角度进行了全面评估，以证明VIPO可以高效且一致地学习出一个高度准确的模型，并且能够系统地超越现有方法的表现。它提供了一个通用框架，可以轻松集成到现有的基于模型的离线RL算法中，以系统性地提高模型的准确性。因此，VIPO在D4RL和NeoRL基准测试中的几乎所有任务上都实现了最先进的性能。