LLM2D

摘要

arXiv:2504.15046v1 宣告类型: 新摘要: RL系统通常通过从高质量样本或预热探索中推断任务信念来应对泛化的挑战。这种受限形式限制了它们的通用性和实用性，因为这些监督信号在获取未见过的任务之前通常是昂贵的甚至无法实现。直接从原始文本中学习决策任务是一种有前途的选择，可以利用更广泛的数据源作为监督。在本文中，我们提出了Text-to-Decision Agent (T2DA)，这是一个简单的可扩展框架，使用自然语言监督通用政策学习。我们首先引入一个通用的世界模型，将其多任务决策数据编码到一个动力学意识的嵌入空间中。然后，受到CLIP的启发，我们预测哪些文本描述与哪个决策嵌入相关，通过对比语言-决策预训练有效弥合语义差距，并对文本嵌入进行对齐以理解环境动力学。在经过文本条件下的通用策略训练后，智能体可以直接根据语言指令实现零样本文本到决策的生成。在MuJoCo和Meta-World基准测试上的全面实验表明，T2DA促进了高容量的零样本泛化，并优于各种基准。