LLM2D

摘要

我们提出了一种名为 SOAR 的新型无人机航拍视频自监督预训练算法。我们在整个预训练过程中融入人类目标知识，以提高无人机视频预训练效率和下游动作识别性能。这与之前主要在微调阶段融入目标信息的工作形成对比。具体来说，我们首先提出了一种新颖的目标感知掩码策略，旨在在整个预训练阶段保持与目标相关的某些补丁的可见性。其次，我们引入了一种目标感知损失函数，利用目标信息来调整重建损失，防止偏向信息量较小的背景补丁。在实践中，SOAR 使用普通 ViT 主干网络，优于最佳的无人机动作识别模型，在 NEC-Drone 和 UAV-Human 数据集上分别提高了 9.7% 和 21.4% 的 top-1 准确率，同时推理速度为每视频 18.7 毫秒，速度提升 2 倍到 5 倍。此外，SOAR 在与先前的自监督学习 (SSL) 方法取得相当的准确率的同时，预训练时间减少了 87.5%，内存使用量减少了 25%。