LLM2D

摘要

arXiv:2502.20490v3 通知类型: replace-cross 摘要：人类的行为受规范的影响。然而，机器往往缺乏明确的理解和推理规范，尤其是在规范具有物理或社会基础时更是如此。为了提高和评估视觉语言模型（VLMs）的规范推理能力，我们提出了 \dataset{} $\|\epsilon\|$，包含基于第一人称视频的1,853个具有挑战性的多阶段选择题问题，评估规范行为的预测和解释。规范行为涵盖了七个类别：安全、隐私、个人空间、礼貌、合作、协调/主动性、以及沟通/易读性。为了大规模编纂此数据集，我们提出了一种新颖的管道，利用视频采样、自动答案生成、过滤和人工验证。我们的工作表明，当前最先进的视觉语言模型缺乏稳健的规范理解，在 \dataset{} 上的得分最高为54％（相比之下，人类基准得分为92％）。我们对每个维度性能的分析突显了在应用于现实世界代理时，安全、隐私以及缺乏协作和沟通能力的重大风险。此外，我们还展示了通过基于检索的生成（RAG）方法，可以使用 \dataset{} 来增强VLMs的规范推理能力。