LLM2D

摘要

arXiv:2502.05574v1 类型: cross 摘要: 然后，我们引入了一种新颖的分层知识蒸馏策略，该策略结合了相似矩阵、特征表示和基于响应图的蒸馏来指导学生Transformer网络的学习。我们还通过应用时间傅里叶变换来建立视频帧之间的时间关系，以增强模型捕捉时间依赖性的能力。在测试时，通过提出的新测试时调整策略将网络模型适应特定的目标对象，从而实现目标跟踪的高性能和灵活性。鉴于现有基于事件的目标跟踪数据集主要分辨率较低，我们提出了EventVOT，这是第一个大规模高分辨率的基于事件的目标跟踪数据集。它包含1141个视频，涵盖了行人、车辆、无人机、乒乓球等多个类别。在低分辨率（FE240Hz、VisEvent、FELT）数据集和我们新提出的高分辨率EventVOT数据集上的广泛实验证明了我们提出方法的有效性。基准数据集和源代码已发布在https://github.com/Event-AHU/EventVOT_Benchmark