摘要
arXiv:2502.13430v1 通知类型: 新
摘要: 引导多智能体强化学习的策略与人类常识保持一致是一个困难的问题,主要是由于将常识建模为奖励的复杂性,特别是在复杂且长期的任务中。近期的研究表明,基于潜在奖励的奖励塑造方法可以增强策略的一致性。然而,现有的方法主要依赖专家设计基于规则的奖励,这往往耗时且缺乏对常识高层次语义的理解。为了解决这个问题,我们提出了一种分层的基于视觉的奖励塑造方法。在底层,一个视觉-语言模型(VLM)作为通用的潜在函数,通过其内在的语义理解,引导策略与人类常识保持一致。为了帮助策略适应长期任务中的不确定性和变化,顶层特征是一个基于视觉大型语言模型(vLLM)的自适应技能选择模块。该模块利用指令、视频重播和训练记录,动态从预先设计的池中选择合适的潜在函数。此外,我们的方法在理论上证明能够保持最优策略。在Google Research Football环境中的广泛实验表明,我们的方法不仅能提高胜率,还能有效地将策略与人类常识保持一致。