LLM2D
增强基于动态记忆预测的自监督细粒度视频对象跟踪
Enhancing Self-Supervised Fine-Grained Video Object Tracking with Dynamic Memory Prediction
作者: Zihan Zhou, Changrui Dai, Aibo Song, Xiaolin Fang
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21692v1

摘要

arXiv:2504.21692v1 交叉类型公告 摘要:成功的视频分析依赖于对帧间像素进行准确识别,基于视频对应学习的帧重建方法因其高效性而广受欢迎。现有的帧重建方法虽然高效,但在复杂情况下(如遮挡或快速移动)忽视了多个参考帧直接参与重建和决策方面的价值。在本文中,我们提出了一种动态记忆预测(DMP)框架,该框架创新地利用多个参考帧来简洁且直接地增强帧重建。其核心组件是依据对象像素特征动态选择帧的参考帧记忆引擎,以提高跟踪准确性。此外,我们构建了一个双向目标预测网络,利用多个参考帧来提高模型的鲁棒性。通过实验,我们的算法在两个细粒度的视频对象跟踪任务:对象分割和关键点跟踪上优于最先进的自监督技术。