LLM2D
面向真实世界物理动力学的视觉辨识与推理:基于物理原理的异常检测
Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection
作者: Wenqiao Li, Yao Gu, Xintao Chen, Xiaohao Xu, Ming Hu, Xiaonan Huang, Yingna Wu
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.03562v3

摘要

arXiv:2503.03562v3 宣告类型: replace-cross 摘要:人类通过感知、互动和基于对象条件的物理知识进行推理来检测现实世界中的对象异常。工业异常检测(IAD)的长期目标是使机器能够自主复制这一技能。然而,当前的IAD算法大多是在静态、语义简单的数据集上开发和测试的,而这与物理理解和推理在现实世界场景中必不可少的情况大相径庭。为了弥合这一差距,我们引入了物理异常检测(Phys-AD)数据集,这是一个面向工业异常检测的第一个大型现实世界、物理基础的视频数据集。通过真实的机器人手臂和电机收集,Phys-AD提供了多样化的动态、语义丰富的场景。数据集涵盖了22个真实世界对象类别超过6400个视频,并且涉及机器人手臂和电机的交互,同时表现出47种类型的异常。在Phys-AD中进行异常检测需要视觉推理,结合物理知识和视频内容来确定对象的异常情况。我们在这三种设置下对最先进的异常检测方法进行了基准测试:无监督异常检测、弱监督异常检测和视频理解异常检测,突出了它们在处理物理基础异常方面的局限性。此外,我们还引入了物理异常解释(PAEval)度量,旨在评估视觉-语言基础模型不仅检测异常的能力,还能够为其实质物理原因提供准确解释的能力。我们的项目可以在 https://guyao2023.github.io/Phys-AD/ 获取。