LLM2D

摘要

arXiv:2505.01822v1 宣告类型: cross 摘要：基于扩散模型的条件决策生成在强化学习（RL）中显示出了强大的竞争力。最近的研究揭示了能量函数引导的扩散模型与受限RL问题之间的关系。主要挑战在于估计中间能量，由于生成过程中使用了对数期望公式，使其难以计算。为了解决这一问题，我们提出了Analytic Energy-guided Policy Optimization（AEPO）。具体来说，我们首先为当扩散模型服从条件高斯变换时中间引导的理论分析和封闭形式解提供了分析。然后，我们分析了对数期望公式中的后验高斯分布，并在温和假设下获得了对数期望的目标估计。最后，我们训练了一个中间能量神经网络，以逼近对数期望公式的目标估计。我们在30多个离线RL任务中应用了我们的方法，以证明我们方法的有效性。广泛的实验表明，在D4RL离线强化学习基准测试中，我们的方法超过了多个代表性基线。