LLM2D

摘要

arXiv:2504.15046v2 宣告类型: 替换摘要：RL系统通常通过从高质量样本或预热探索中推断任务信念来处理泛化问题。这种限制形式限制了其通用性和实用性，因为这些监督信号在事先获取未见过的任务时是昂贵甚至不可行的。直接从原始文本中学习决策任务是一种有望利用更广泛监督源的替代方案。在本文中，我们提出了Text-to-Decision Agent（T2DA），这是一种简单且可扩展的框架，通过自然语言监督通用主义策略学习。我们首先介绍了一种泛化世界模型，将多任务决策数据编码到一个动态感知嵌入空间中。然后，受到CLIP的启发，我们预测哪种文本描述与哪种决策嵌入相关，通过对比语言-决策预训练有效地弥合了它们之间的语义差距，并使文本嵌入能够理解环境动态。在训练文本条件下的通用主义策略后，该智能体可以直接实现反应语言指令的零样本文本到决策生成。在MuJoCo和Meta-World基准上的全面实验表明，T2DA促进了高容量的零样本泛化，并优于各种基线方法。