LLM2D

摘要

arXiv:2406.18012v2 宣告类型: replace-cross 摘要：在建成环境中进行视觉异常检测是一种有价值的工具，适用于基础设施评估、建设监控、安全监控和城市规划等应用。异常检测方法通常是无监督的，通过检测与预期状态的偏差来工作，其中不需要假设特定类型的偏差。开发了无监督的像素级异常检测方法以成功地识别和分割异常；然而，现有的技术是为具有固定摄像头位置的工业环境设计的。在建成环境中，图像由手动操作的摄像头或安装在航空或地面车辆上的摄像头定期捕捉。连续收集之间的摄像头姿态会显著变化，这在现有的异常检测方法中是一个基本假设。为了填补这一空白，我们提出了场景异常检测（Scene AD）的问题，目标是从两组图像中检测异常：一组没有异常的图像和一组可能包含异常或不包含异常的图像。没有提供带标签的语义分割数据用于训练。我们提出了一种新的网络，OmniAD，通过完善逆 distilled 异常检测方法来应对场景 AD，从而在像素级异常检测中提高了40%。此外，我们引入了两种新的数据增强策略，利用新颖的视角合成和摄像头定位来增强泛化能力。我们在一个新的数据集 ToyCity 和已建立的单一对象为中心的数据集 MAD 上分别从主观和客观上评估了我们的方法。我们的方法在基准方法上表现出显著的改进，为具有建成环境中常见真实世界摄像头姿态变化的场景中的稳健异常检测铺平了道路。https://drags99.github.io/OmniAD/