LLM2D
探究视觉-语言-行动模型的符号状态及其与认知架构的整合
Probing a Vision-Language-Action Model for Symbolic States and Integration into a Cognitive Architecture
作者: Hong Lu, Hengxu Li, Prithviraj Singh Shahani, Stephanie Herbers, Matthias Scheutz
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04558v1

摘要

arXiv:2502.04558v1 交叉公告类型 摘要:视觉-语言-行动(VLA)模型通过将视觉和语言输入转化为机器人行动展现出作为通用机器人解决方案的潜力,但由于其黑盒性质和对环境变化的敏感性,缺乏可靠性。相比之下,认知架构(CA)在符号推理和状态监控方面表现出色,但受限于严格的预定义执行。本研究通过探究OpenVLA的隐藏层,以发现对象属性、关系以及行动状态的符号表示,从而使其能够与认知架构整合,增强其可解释性和鲁棒性。通过对LIBERO-空间性的抓取和放置任务的实验,我们分析了OpenVLA llama backbone在不同层面上的符号状态编码。我们的探查结果显示,在大多数层面上,对对象和行动状态的编码准确率均高于0.90,尽管与我们的假设相反,我们并未观察到对象状态早于行动状态被编码的预期模式。我们展示了利用这些符号表示实现的集成DIARC-OpenVLA系统,该系统可以实现实时状态监控,为更可解释和可靠的机器人操作奠定了基础。