摘要
大型多模态模型在视觉和语言任务中展示了令人印象深刻的问题解决能力,并具有编码广泛世界知识的潜力。然而,这些模型在现实环境中感知、推理、规划和行动的能力仍然是一个开放的挑战。在这项工作中,我们引入了Can-Do,一个基准数据集,旨在通过比以往数据集更多样化和复杂的场景来评估具身规划能力。我们的数据集包括400个多模态样本,每个样本由自然语言用户指令、描绘环境的视觉图像、状态变化和相应的行动计划组成。数据涵盖了常识知识、物理理解和安全意识的多个方面。我们的细粒度分析揭示了包括GPT-4V在内的最先进模型在视觉感知、理解和推理能力方面面临的瓶颈。为了应对这些挑战,我们提出了NeuroGround,一个神经符号框架,首先将计划生成基于感知到的环境状态,然后利用符号规划引擎来增强模型生成的计划。实验结果表明,与强大的基线相比,我们的框架具有更高的有效性。我们的代码和数据集可在https://embodied-planning.github.io获取。