LLM2D
工业制造中视觉质量控制的视觉Transformer模型评估
Evaluating Vision Transformer Models for Visual Quality Control in Industrial Manufacturing
作者: Miriam Alber, Christoph H\"ones, Patrick Baier
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.14953v1

摘要

在工业制造中,机器学习最具前景的应用之一是利用质量控制系统早期检测缺陷产品。这样的系统可以降低成本并减少由于视觉检查的单调性而导致的人为错误。如今,大量研究采用机器学习方法来识别不平衡视觉质量控制数据集中的罕见缺陷产品。这些方法通常依赖于两个组成部分:一个视觉主干来捕捉输入图像的特征,以及一个异常检测算法来判断这些特征是否在预期分布范围内。随着Transformer架构作为首选视觉主干的兴起,现在存在各种各样的这两种组件的组合,它们在检测质量和推理时间之间取得平衡。面对这种多样性,该领域的从业者往往需要花费大量时间来研究适合其当前用例的正确组合。我们的贡献是通过审查和评估当前的视觉Transformer模型以及异常检测方法来帮助从业者做出选择。为此,我们选择了这两个领域的SOTA模型,将它们结合起来并进行了评估,目标是获得适用于工业制造的小型、快速且高效的异常检测模型。我们在著名的MVTecAD和BTAD数据集上评估了实验结果。此外,我们还提供了在实践中选择适合质量控制系统的模型架构的指导方针,同时考虑给定的用例和硬件约束。