LLM2D

摘要

arXiv:2409.12842v1 公告类型: 交叉摘要: 视觉语言模型（VLMs）能够同时对图像和文本进行推理，以解决从视觉问答到图像描述的多种任务。本文聚焦于地图解析，这是一个在VLM背景下尚未探索的新任务，对移动机器人尤其有用。地图解析不仅需要理解标签，还需要理解地图的几何配置，即各个区域是什么样的以及它们是如何连接的。为了评估VLMs在地图解析上的表现，我们使用平面图地图提示VLMs生成复杂的室内导航任务计划。我们的结果显示，VLMs在地图解析中表现出色，在需要九个导航动作序列的任务中成功率达到0.96，例如接近和通过门。除了直观的观察，例如VLMs在小地图和简单导航任务中表现更好，还有一个非常有趣的观察结果是，它在大型开放区域中的表现下降。我们根据实验结果提供了实用的建议来应对这些挑战。网页: https://shorturl.at/OUkEY