摘要
arXiv:2412.04447v2 公告类型:替换
摘要:多模态大型语言模型的出现,利用了大型语言模型的强大功能,最近展示了卓越的多模态理解和推理能力,预示着人工智能通用智能新时代的到来。然而,实现AGI不仅仅是理解和推理。一个关键能力是有效规划,在各种场景中作出合理的决策,以应对复杂环境并解决实际问题。尽管如此,当前多模态语言模型在各种场景中的规划能力仍处于未被充分探索的状态。在本文中,我们介绍了EgoPlan-Bench2,这是一种严谨而全面的基准测试,旨在评估多模态语言模型在广泛的实际场景中的规划能力。EgoPlan-Bench2涵盖了4个主要领域和24个详细场景的日常任务,与人类日常生活的实际紧密相连。通过半自动过程构建,使用第一人称视角的自我中心视频,并辅以手动验证。基于第一人称视角,它反映了人类日常生活中解决问题的方式。我们评估了21个竞争性的多模态语言模型,并对其局限性进行了深入分析,揭示了它们在实际规划中面临的显著挑战。为了进一步提高当前多模态语言模型的规划能力,我们通过调查各种多模态提示在复杂规划中的有效性,提出了一个无需训练的多模态Chain-of-Thought(CoT)提示方法。这种方法在EgoPlan-Bench2上将GPT-4V的表现提升了10.24。我们的研究不仅揭示了当前多模态语言模型在规划方面的局限性,还为这一关键领域的未来改进提供了见解。我们在https://qiulu66.github.io/egoplanbench2/发布数据和代码。