摘要
视觉语言模型 (VLMs) 在语言落地方面具有巨大潜力,因此能够使基于语言的智能体 (LCAs) 执行用文本指定的各种任务。这推动了基于强化学习 (RL) 的 LCAs 的研究,其奖励通过渲染环境图像并用 VLMs 评估这些图像来给出。如果采用单任务 RL,则此类方法受到为每个新任务训练策略所需成本和时间的限制。多任务 RL (MTRL) 是一种自然的替代方法,但需要精心设计的训练任务语料库,并且并不总是能够可靠地泛化到新任务。因此,本文介绍了一种构建 LCA 的新颖分解方法:首先找到一个环境配置,该配置对描述任务的文本具有较高的 VLM 分数;然后使用(预训练的)目标条件策略来达到该配置。我们还探索了几种提高基于 VLM 的 LCAs 速度和质量的方法,特别是使用蒸馏模型,以及从多个视角评估配置以解决单个二维视图中固有的歧义。我们在类人机器人环境中演示了我们的方法,结果表明它产生的 LCAs 在零样本泛化方面优于 MTRL 基线,而无需在训练期间使用任何文本任务描述或其他形式的环境特定注释。视频和交互式演示可在 https://europe.naverlabs.com/text2control 找到。