摘要
arXiv:2502.13130v1 Announce Type: cross
摘要:我们提出了Magma,一种服务于数字世界和物理世界的多模态AI自主任务的基座模型。Magma是对视觉-语言(VL)模型的一个显著扩展,不仅保留了后者在语言理解能力(口头智能)方面的能力,还具备在视觉-空间世界(时空智能)中进行规划和行动的能力,并能完成从UI导航到机器人操作等一系列自主任务。为了赋予其自主能力,Magma在大量跨模态数据集上进行了预训练,这些数据集涵盖了从图片、视频到机器人数据等多个领域,其中,图片中的行动可执行视觉对象(例如GUI中的可点击按钮)通过Set-of-Mark(SoM)进行标注,以便于动作定位,视频中的物体运动(例如人类手部或机器人手臂的轨迹)则通过Trace-of-Mark(ToM)进行标注,以便于进行动作规划。广泛的实验表明,SoM和ToM在协同作用方面取得巨大成效,有助于Magma模型获取时空智能,这对于包括图1所示的各种任务都是基础性的。特别是,Magma在UI导航和机器人操作任务上创造了新的状态最先进成果,超越了专门为此类任务训练的先前模型。在图像和视频相关的多模态任务上,Magma也优于在更大数据集上训练的流行多模态模型。我们将在https://microsoft.github.io/Magma开放我们的模型和代码以实现可重复性。