LLM2D
资源高效的多视角感知:将语义掩码与掩码自动编码器相结合
Resource-Efficient Multiview Perception: Integrating Semantic Masking with Masked Autoencoders
作者: Kosta Dakic, Kanchana Thilakarathna, Rodrigo N. Calheiros, Teng Joon Lim
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.04817v1

摘要

多视角系统已成为现代计算机视觉的关键技术,在场景理解和分析方面提供了先进的能力。然而,这些系统在带宽限制和计算约束方面面临着严峻挑战,特别是对于资源有限的摄像头节点(如无人机)。本文提出了一种使用掩码自动编码器 (MAE) 进行通信高效的分布式多视角检测和跟踪的新方法。我们引入了一种语义引导的掩码策略,该策略利用预训练的分割模型和可调功率函数来优先考虑信息丰富的图像区域。这种方法与 MAE 相结合,在保留基本视觉信息的同时降低了通信开销。我们在虚拟和真实世界多视角数据集上评估了我们的方法,结果表明,即使在高掩码率下,在检测和跟踪性能指标方面也与最先进的技术相当。我们的选择性掩码算法优于随机掩码,随着掩码率的增加,保持更高的准确性和精度。此外,与基线方法相比,我们的方法显着减少了传输数据量,从而平衡了多视角跟踪性能与通信效率。