LLM2D

摘要

arXiv:2504.21692v1 交叉类型公告摘要：成功的视频分析依赖于对帧间像素进行准确识别，基于视频对应学习的帧重建方法因其高效性而广受欢迎。现有的帧重建方法虽然高效，但在复杂情况下（如遮挡或快速移动）忽视了多个参考帧直接参与重建和决策方面的价值。在本文中，我们提出了一种动态记忆预测（DMP）框架，该框架创新地利用多个参考帧来简洁且直接地增强帧重建。其核心组件是依据对象像素特征动态选择帧的参考帧记忆引擎，以提高跟踪准确性。此外，我们构建了一个双向目标预测网络，利用多个参考帧来提高模型的鲁棒性。通过实验，我们的算法在两个细粒度的视频对象跟踪任务：对象分割和关键点跟踪上优于最先进的自监督技术。