LLM2D

摘要

arXiv:2503.20139v1 类别: cross 摘要: 基于模型的强化学习（MBRL）在样本效率上优于基于模型的自由学习（MFRL），但在存在不准确模型的情况下，可能会在策略学习过程中引入偏差，导致误导性的轨迹。挑战在于由于有限的多样化的训练数据，特别是那些很少访问的区域（不确定区域），难以获得准确的模型。现有的方法在样本生成后被动地量化不确定性，未能积极收集不确定样本以增强状态覆盖并提高模型准确性。此外，MBRL 在进行准确的多步预测方面常常存在困难，从而影响整体性能。为了解决这些限制，我们提出了一种用于基于模型的探索性规划的认知不确定性的策略优化框架。在基于模型的规划阶段，我们引入了认知不确定性的k步远期规划方法，以指导每一步的动作选择。这个过程涉及模型不确定性与价值函数近似误差之间的权衡分析，有效地提升了策略性能。在策略优化阶段，我们利用以不确定性为导向的探索性策略积极收集多样化的训练样本，从而提高模型准确性并增强RL代理的整体性能。我们的方法在不同状态/动作空间和奖励结构的任务中具有灵活性和适用性。我们通过在复杂的机器人操作任务和Atari游戏中进行实验验证了其有效性，并通过较少的交互超越了最先进的方法，从而实现了显著的性能提升。