LLM2D

摘要

本研究提出了一种针对视觉语言导航 (VLN) 任务的新型评估框架。该框架旨在更细致地诊断当前模型对各种指令类别的性能。该框架围绕任务的上下文无关文法 (CFG) 结构化。CFG 作为问题分解的基础，也是指令类别设计的核心前提。我们提出了一种借助大型语言模型 (LLMs) 的半自动 CFG 构造方法。然后，我们归纳并生成跨越五个主要指令类别（即方向改变、地标识别、区域识别、垂直移动和数字理解）的数据。我们对不同模型的分析揭示了显著的性能差异和反复出现的问题。数字理解的停滞、对方向概念的严重选择性偏差以及其他有趣的发现有助于未来语言引导导航系统的开发。