LLM2D

摘要

arXiv:2504.02512v1 交叉公告类型摘要：尽管在时间动作分割方面取得了显著进展，但将方法推广到未见过的视角的问题仍然未得到解决。因此，我们定义了一个未见过的视角动作分割的协议，在训练过程中，评估模型所需的摄像机视角是不可用的。这包括从顶部 frontal 视角转变为侧面视角，甚至更具挑战性地从外视角转变为 ego-视角。此外，我们提出了一种时间动作分割的方法，以应对这一挑战。我们的方法通过在序列和片段层面共享表示，减少训练过程中视角差异的影响。我们通过引入序列损失和动作损失实现了这一目标，这两者共同有助于在不同视角下实现一致的视频和动作表示。在对 Assembly101、IkeaASM 和 EgoExoLearn 数据集的评估中，我们取得了显著的改进，未见过的外视角的 F1@50 提高了 12.8%，未见过的 ego-视角的改进则达到了 54% 的显著提升。