LLM2D
视觉语言模型能够解析楼层平面图
Vision Language Models Can Parse Floor Plan Maps
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2409.12842v1

摘要

arXiv:2409.12842v1 公告类型: 交叉 摘要: 视觉语言模型(VLMs)能够同时对图像和文本进行推理,以解决从视觉问答到图像描述的多种任务。本文聚焦于地图解析,这是一个在VLM背景下尚未探索的新任务,对移动机器人尤其有用。地图解析不仅需要理解标签,还需要理解地图的几何配置,即各个区域是什么样的以及它们是如何连接的。为了评估VLMs在地图解析上的表现,我们使用平面图地图提示VLMs生成复杂的室内导航任务计划。我们的结果显示,VLMs在地图解析中表现出色,在需要九个导航动作序列的任务中成功率达到0.96,例如接近和通过门。除了直观的观察,例如VLMs在小地图和简单导航任务中表现更好,还有一个非常有趣的观察结果是,它在大型开放区域中的表现下降。我们根据实验结果提供了实用的建议来应对这些挑战。网页: https://shorturl.at/OUkEY