LLM2D
视觉-语言模型能理解并解释行人的动态手势吗?试点数据集及朝着指示性非言语命令合作性自动驾驶车辆的探索
Can Vision-Language Models Understand and Interpret Dynamic Gestures from Pedestrians? Pilot Datasets and Exploration Towards Instructive Nonverbal Commands for Cooperative Autonomous Vehicles
作者: Tonko E. W. Bossen, Andreas M{\o}gelmose, Ross Greer
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10873v1

摘要

arXiv:2504.10873v1 类型: cross 摘要:在自动驾驶领域,正确解释交通手势(TGs),例如权威人物发出命令或指示的手势,或是行人向驾驶员发出的手势信号,对于确保所有道路使用者的交通安全和舒适环境至关重要。本研究探讨了最先进的视觉语言模型(VLMs)在零样本解释中的能力,重点关注它们在交通场景中描述和分类人类手势的能力。我们创建并公开分享了两个定制数据集,包含正式和非正式的交通手势,例如“停止”、“倒车”、“招手”等。这些数据集分别为“执行交通手势(ATG)”和“野生指示性交通手势(ITGI)”。它们用自然语言标注了行人的身体位置和手势。我们使用三种方法评估模型,利用专家生成的手势描述句作为基线和对照:(1) 句子相似度,(2) 动作分类,以及 (3) 姿态序列重建相似度。结果显示,当前的VLMs在手势理解方面存在困难:句子相似度平均值低于0.59,分类F1分数仅为0.14-0.39,远低于专家基线的0.70。虽然姿态重建展现了潜力,但需要更多的数据和优化的评价指标才能可靠。我们的研究发现,尽管一些最新的VLMs能够解释零样本的人类交通手势,但没有任何一个模型准确且稳健到可以信赖的程度,这突显了该领域进一步研究的必要性。