LLM2D

摘要

arXiv:2502.09680v1 动作类型：交叉摘要：利用大量互联网视频数据进行具身人工智能目前受到缺乏动作注释以及存在相关干扰动作的瓶颈。我们提出了一种基于VideoSaur和LAPO的新型对象中心潜在动作学习方法，该方法通过自我监督将场景分解为对象表示，并使用代理动作标签标注视频数据。该方法有效地将因果因素对象交互与无关背景噪声分离，减少了由于干扰动作导致的潜在动作学习方法性能下降。我们的初步实验显示，基于对象分解的潜在动作预训练可以将通过一小部分标注动作进行下游微调推断出的潜在动作质量提高2.7倍，并且平均提高2.6倍的回报效率。