摘要
基于视觉的机器人策略学习,将视觉输入映射到动作,需要对各种视觉任务进行整体理解,而不仅仅是分类或分割等单一任务。受此启发,我们引入了 Theia,一个用于机器人学习的视觉基础模型,它提取了针对各种视觉任务训练的多个现成的视觉基础模型。Theia 丰富的视觉表示编码了各种视觉知识,增强了下游机器人学习。大量实验表明,Theia 在使用更少的训练数据和更小的模型尺寸的情况下,性能优于其教师模型和先前的机器人学习模型。此外,我们量化了预训练视觉表示的质量,并假设特征范数分布中更高的熵会导致更好的机器人学习性能。代码、模型和演示可在 https://theia.theaiinstitute.com 获得。