LLM2D
忒伊亚:为机器人学习提炼多样化的视觉基础模型
Theia: Distilling Diverse Vision Foundation Models for Robot Learning
作者: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2407.20179v2

摘要

基于视觉的机器人策略学习,将视觉输入映射到动作,需要对各种视觉任务进行整体理解,而不仅仅是分类或分割等单一任务。受此启发,我们引入了 Theia,一个用于机器人学习的视觉基础模型,它提取了针对各种视觉任务训练的多个现成的视觉基础模型。Theia 丰富的视觉表示编码了各种视觉知识,增强了下游机器人学习。大量实验表明,Theia 在使用更少的训练数据和更小的模型尺寸的情况下,性能优于其教师模型和先前的机器人学习模型。此外,我们量化了预训练视觉表示的质量,并假设特征范数分布中更高的熵会导致更好的机器人学习性能。代码、模型和演示可在 https://theia.theaiinstitute.com 获得。