摘要
arXiv:2502.20490v3 通知类型: replace-cross
摘要:人类的行为受规范的影响。然而,机器往往缺乏明确的理解和推理规范,尤其是在规范具有物理或社会基础时更是如此。为了提高和评估视觉语言模型(VLMs)的规范推理能力,我们提出了 \dataset{} $\|\epsilon\|$,包含基于第一人称视频的1,853个具有挑战性的多阶段选择题问题,评估规范行为的预测和解释。规范行为涵盖了七个类别:安全、隐私、个人空间、礼貌、合作、协调/主动性、以及沟通/易读性。为了大规模编纂此数据集,我们提出了一种新颖的管道,利用视频采样、自动答案生成、过滤和人工验证。我们的工作表明,当前最先进的视觉语言模型缺乏稳健的规范理解,在 \dataset{} 上的得分最高为54%(相比之下,人类基准得分为92%)。我们对每个维度性能的分析突显了在应用于现实世界代理时,安全、隐私以及缺乏协作和沟通能力的重大风险。此外,我们还展示了通过基于检索的生成(RAG)方法,可以使用 \dataset{} 来增强VLMs的规范推理能力。