LLM2D
自我规范:物理社会规范理解基准测试
EgoNormia: Benchmarking Physical Social Norm Understanding
作者: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2502.20490v3

摘要

arXiv:2502.20490v3 通知类型: replace-cross 摘要:人类的行为受规范的影响。然而,机器往往缺乏明确的理解和推理规范,尤其是在规范具有物理或社会基础时更是如此。为了提高和评估视觉语言模型(VLMs)的规范推理能力,我们提出了 \dataset{} $\|\epsilon\|$,包含基于第一人称视频的1,853个具有挑战性的多阶段选择题问题,评估规范行为的预测和解释。规范行为涵盖了七个类别:安全、隐私、个人空间、礼貌、合作、协调/主动性、以及沟通/易读性。为了大规模编纂此数据集,我们提出了一种新颖的管道,利用视频采样、自动答案生成、过滤和人工验证。我们的工作表明,当前最先进的视觉语言模型缺乏稳健的规范理解,在 \dataset{} 上的得分最高为54%(相比之下,人类基准得分为92%)。我们对每个维度性能的分析突显了在应用于现实世界代理时,安全、隐私以及缺乏协作和沟通能力的重大风险。此外,我们还展示了通过基于检索的生成(RAG)方法,可以使用 \dataset{} 来增强VLMs的规范推理能力。