LLM2D

摘要

arXiv:2502.13130v1 Announce Type: cross 摘要：我们提出了Magma，一种服务于数字世界和物理世界的多模态AI自主任务的基座模型。Magma是对视觉-语言（VL）模型的一个显著扩展，不仅保留了后者在语言理解能力（口头智能）方面的能力，还具备在视觉-空间世界（时空智能）中进行规划和行动的能力，并能完成从UI导航到机器人操作等一系列自主任务。为了赋予其自主能力，Magma在大量跨模态数据集上进行了预训练，这些数据集涵盖了从图片、视频到机器人数据等多个领域，其中，图片中的行动可执行视觉对象（例如GUI中的可点击按钮）通过Set-of-Mark（SoM）进行标注，以便于动作定位，视频中的物体运动（例如人类手部或机器人手臂的轨迹）则通过Trace-of-Mark（ToM）进行标注，以便于进行动作规划。广泛的实验表明，SoM和ToM在协同作用方面取得巨大成效，有助于Magma模型获取时空智能，这对于包括图1所示的各种任务都是基础性的。特别是，Magma在UI导航和机器人操作任务上创造了新的状态最先进成果，超越了专门为此类任务训练的先前模型。在图像和视频相关的多模态任务上，Magma也优于在更大数据集上训练的流行多模态模型。我们将在https://microsoft.github.io/Magma开放我们的模型和代码以实现可重复性。