摘要
arXiv:2504.02512v1 交叉公告类型
摘要:尽管在时间动作分割方面取得了显著进展,但将方法推广到未见过的视角的问题仍然未得到解决。因此,我们定义了一个未见过的视角动作分割的协议,在训练过程中,评估模型所需的摄像机视角是不可用的。这包括从顶部 frontal 视角转变为侧面视角,甚至更具挑战性地从外视角转变为 ego-视角。此外,我们提出了一种时间动作分割的方法,以应对这一挑战。我们的方法通过在序列和片段层面共享表示,减少训练过程中视角差异的影响。我们通过引入序列损失和动作损失实现了这一目标,这两者共同有助于在不同视角下实现一致的视频和动作表示。在对 Assembly101、IkeaASM 和 EgoExoLearn 数据集的评估中,我们取得了显著的改进,未见过的外视角的 F1@50 提高了 12.8%,未见过的 ego-视角的改进则达到了 54% 的显著提升。