摘要
arXiv:2503.08604v2 宣告类型: replace-cross
摘要:开发受自然语言控制的家庭机器人一直是人类追求的目标。虽然大规模语言模型(LLMs)和体态智能的进步使这一目标变得更加接近,但仍存在一些挑战:缺乏统一的基准来评估更复杂的机器人任务、评估方法和度量的局限性以及语言模型与移动操作轨迹之间的数据不兼容性。为了应对这些问题,我们提出了开放环境下的体态移动操作基准(EMMOE),该基准要求代理理解和执行连续空间中的长期展望日常任务。EMMOE 将高层和低层的体态任务无缝地整合到一个统一的框架中,并引入了三种新的度量标准以进行更全面的评估。此外,我们收集了包含各种任务属性、详细的工序注解、失败后的重新计划以及用于大规模语言模型训练的两个子数据集的数据集。进而我们设计了模型~\model,该模型包含具有直接偏好优化(DPO)的大型语言模型、轻量级的导航和操作模型以及多个错误检测机制。最后,我们展示了模型的表现,并对不同模型和策略进行了评估。