LLM2D
SOAR:基于高效目标感知预训练的自监督优化无人机动作识别
SOAR: Self-supervision Optimized UAV Action Recognition with Efficient Object-Aware Pretraining
作者: Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2409.18300v1

摘要

我们提出了一种名为 SOAR 的新型无人机航拍视频自监督预训练算法。我们在整个预训练过程中融入人类目标知识,以提高无人机视频预训练效率和下游动作识别性能。这与之前主要在微调阶段融入目标信息的工作形成对比。具体来说,我们首先提出了一种新颖的目标感知掩码策略,旨在在整个预训练阶段保持与目标相关的某些补丁的可见性。其次,我们引入了一种目标感知损失函数,利用目标信息来调整重建损失,防止偏向信息量较小的背景补丁。在实践中,SOAR 使用普通 ViT 主干网络,优于最佳的无人机动作识别模型,在 NEC-Drone 和 UAV-Human 数据集上分别提高了 9.7% 和 21.4% 的 top-1 准确率,同时推理速度为每视频 18.7 毫秒,速度提升 2 倍到 5 倍。此外,SOAR 在与先前的自监督学习 (SSL) 方法取得相当的准确率的同时,预训练时间减少了 87.5%,内存使用量减少了 25%。