LLM2D

摘要

arXiv:2503.19706v1 宣告类型: cross 摘要: 从主观视角(第一人称，ego)和客观视角(第三人称，exo)视频中学习不变视图表示是一种朝着跨多视角泛化视频理解系统的方法。然而，由于主观和客观视图之间视角、运动模式和上下文的巨大差异，这个领域一直被忽视。在本文中，我们提出了一种新颖的自我-客观视角建模方法，称为Bootstrap Your Own Views (BYOV)，以针对未配对的自我-客观视角视频进行细粒度的视图不变视频表示学习，同时促进因果时间动态和跨视角对齐。我们强调捕捉人类动作的组合性质是实现稳健的跨视角理解的基础。具体而言，自我视角掩蔽和跨视角掩蔽预测设计旨在同时学习视图不变且强大的表示。实验结果表明，我们的BYOV在所有四个下游主观-客观视角任务中，在所有指标上的表现显著优于现有方法。源代码可在 https://github.com/park-jungin/byov 获取。