LLM2D

摘要

arXiv:2502.07949v1 类型: cross 摘要：目前最先进的（SOTA）强化学习（RL）方法使具有视觉-语言能力的代理能够在没有人类监督的情况下从与环境的交互中学习。然而，它们在处理现实世界中的复杂序列决策任务时面临着学习效率问题，尤其是在稀疏奖励信号和长时依赖性方面。为有效解决这一问题，我们引入了变分子目标条件强化学习（VSC-RL），将其所提出的视觉-语言序列决策问题重新表述为变分目标条件的RL问题，从而能够利用先进的优化方法来提高学习效率。具体而言，VSC-RL优化子目标证据下界（SGC-ELBO），其中包括（a）通过RL最大化子目标条件的回报，以及（b）最小化子目标条件的与参考策略差异。我们从理论上证明SGC-ELBO等同于原始的优化目标，从而确保在不牺牲性能保障的情况下提高学习效率。此外，在现实世界的复杂决策任务中，VSC-RL利用视觉-语言模型自动分解目标为可行的子目标，从而实现高效的学习。在包括具有挑战性的现实世界移动设备控制任务在内的各种基准测试中，VSC-RL显著超越了现有的最先进的视觉-语言代理，实现了优异的性能和显著的学习效率提升。