LLM2D

摘要

arXiv:2504.10873v1 类型: cross 摘要：在自动驾驶领域，正确解释交通手势（TGs），例如权威人物发出命令或指示的手势，或是行人向驾驶员发出的手势信号，对于确保所有道路使用者的交通安全和舒适环境至关重要。本研究探讨了最先进的视觉语言模型（VLMs）在零样本解释中的能力，重点关注它们在交通场景中描述和分类人类手势的能力。我们创建并公开分享了两个定制数据集，包含正式和非正式的交通手势，例如“停止”、“倒车”、“招手”等。这些数据集分别为“执行交通手势（ATG）”和“野生指示性交通手势（ITGI）”。它们用自然语言标注了行人的身体位置和手势。我们使用三种方法评估模型，利用专家生成的手势描述句作为基线和对照：(1) 句子相似度，(2) 动作分类，以及 (3) 姿态序列重建相似度。结果显示，当前的VLMs在手势理解方面存在困难：句子相似度平均值低于0.59，分类F1分数仅为0.14-0.39，远低于专家基线的0.70。虽然姿态重建展现了潜力，但需要更多的数据和优化的评价指标才能可靠。我们的研究发现，尽管一些最新的VLMs能够解释零样本的人类交通手势，但没有任何一个模型准确且稳健到可以信赖的程度，这突显了该领域进一步研究的必要性。