LLM2D
用渲染函数和视觉语言模型连接环境和语言
Bridging Environments and Language with Rendering Functions and Vision-Language Models
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.16024v1

摘要

视觉语言模型 (VLMs) 在语言理解方面具有巨大潜力,因此能够使语言条件代理 (LCAs) 执行由文本指定的各种任务。这促使人们研究基于强化学习 (RL) 的 LCAs,其奖励由渲染环境图像并使用 VLMs 评估这些图像给出。如果采用单任务 RL,则此类方法受到为每个新任务训练策略所需的成本和时间的限制。多任务 RL (MTRL) 是一种自然选择,但需要精心设计的训练任务语料库,并且并不总是能够可靠地推广到新任务。因此,本文介绍了构建 LCA 问题的一种新颖分解方法:首先找到一个环境配置,该配置对于描述任务的文本具有较高的 VLM 分数;然后使用(预训练的)目标条件策略到达该配置。我们还探索了 VLM 基 LCA 的速度和质量的几个增强功能,特别是使用蒸馏模型,以及从多个视角评估配置,以解决单一 2D 视图固有的歧义。我们在 Humanoid 环境中演示了我们的方法,结果表明它产生了在零样本泛化方面优于 MTRL 基线的 LCA,而无需在训练期间使用任何文本任务描述或其他形式的环境特定注释。 视频和交互式演示可在 https://europe.naverlabs.com/text2control 找到。