LLM2D

摘要

arXiv:2505.04270v1 事态描述类型: 交叉摘要：主观视角视频语义接地是 embodiment 智能应用中的关键任务，与客观视角视频时刻定位不同。现有方法主要关注主观视角视频和客观视角视频之间的分布差异，但往往忽视了主观视角视频的关键特征以及文本查询中强调的细粒度信息。为了应对这些局限性，我们提出了 OSGNet，一种用于主观视角视频的对象子弹时间增强语义接地网络。具体而言，我们从视频中提取对象信息，以丰富视频表示，特别是对于文本查询中强调但视频特征未能直接捕捉到的对象。此外，我们分析了主观视角视频固有的高频镜头移动，利用这些特征提取佩戴者的注意力信息，从而增强模型的模态对齐能力。在三个数据集上的实验结果显示，OSGNet 达到了最先进的性能，验证了我们方法的有效性。我们的代码可以在 https://github.com/Yisen-Feng/OSGNet 找到。