LLM2D

摘要

arXiv:2502.12631v1 宣布类型: cross 摘要：扩散策略在从演示中学习复杂行为方面表现出潜力，特别是在需要精确控制和长期规划的任务中。然而，它们在遇到分布偏移时的稳健性面临挑战。本文探讨了通过与环境的在线交互来改进基于扩散的模仿学习模型的可能性。我们提出了OTPR（Optimal Transport-guided score-based diffusion Policy for Reinforcement learning fine-tuning），这是一种新颖的方法，该方法将扩散策略与使用最优运输理论的强化学习相结合。OTPR利用Q函数作为运输成本，并将策略视为最优运输映射，从而实现高效且稳定的微调。此外，我们引入了掩码最优运输来使用专家关键点指导状态-动作匹配，并采用基于兼容性的重采样策略以增强训练稳定性。在三个模拟任务上的实验表明，与其他现有方法相比，OTPR在性能和稳健性方面表现更优，尤其是在复杂和稀疏奖励环境中。总之，OTPR提供了一种有效框架，用于结合IL和RL，实现灵活且可靠的策略学习。代码将在 https://github.com/Sunmmyy/OTPR.git 释放。