LLM2D

摘要

基于视觉的机器人策略学习，将视觉输入映射到动作，需要对各种视觉任务进行整体理解，而不仅仅是分类或分割等单一任务。受此启发，我们引入了 Theia，一个用于机器人学习的视觉基础模型，它提取了针对各种视觉任务训练的多个现成的视觉基础模型。Theia 丰富的视觉表示编码了各种视觉知识，增强了下游机器人学习。大量实验表明，Theia 在使用更少的训练数据和更小的模型尺寸的情况下，性能优于其教师模型和先前的机器人学习模型。此外，我们量化了预训练视觉表示的质量，并假设特征范数分布中更高的熵会导致更好的机器人学习性能。代码、模型和演示可在 https://theia.theaiinstitute.com 获得。