摘要
arXiv:2503.19706v2 通告类型: replace-cross
摘要:从第一人称(自视,ego)和第三人称(旁观,exo)视频中学习视角不变的表示是一种有望在多个视角上推广视频理解系统的方法。然而,由于ego视图和exo视图之间在视角、运动模式和上下文方面存在巨大差异,这一领域尚未得到充分探索。本文中,我们提出了一种新颖的ego-exo掩蔽建模,即Bootstrap Your Own Views(BYOV),用于从未配对的ego-exo视频中学习精细粒度的视角不变视频表示,该模型促进了一种因果时间动态和跨视角对齐。我们强调捕捉人类行为的组合性质是实现稳健的跨视角理解的基础。具体来说,自视图掩蔽和跨视角掩蔽预测被设计用来同时学习视角不变且强大的表示。实验结果证明,我们的BYOV在四个下游ego-exo视频任务的所有指标上均显著优于现有方法。代码可在https://github.com/park-jungin/byov 获取。