摘要
随着人工智能的快速发展,多模态学习已成为一个重要的研究领域。对于智能代理而言,状态是传递精确信息的关键模态,与图像、视频和语言等常见模态并列。随着强化学习和多模态大型语言模型的广泛应用,这一点变得尤为明显。然而,状态模态的表示仍然滞后于发展。为此,我们提出了一种高保真对比语言-状态预训练(CLSP)方法,该方法可以将状态信息准确地编码为通用表示,适用于强化学习和多模态大型语言模型。具体来说,我们首先基于分类设计了一个预训练任务,以训练具有粗粒度信息的编码器。接下来,我们利用预训练的编码器来初始化 CLSP 编码器,构建状态和语言描述的数据对。然后,我们部署对比学习来训练 CLSP 编码器,以有效地表示精确的状态信息。此外,我们使用随机傅里叶特征 (RFF) 方法来增强数值信息的表示,以实现高保真映射。大量实验表明,我们的表示具有卓越的精度和泛化能力,在文本-状态检索、强化学习导航任务和多模态大型语言模型理解方面取得了优异的成果。