摘要
arXiv:2410.05343v2 通知类型: replace-cross
摘要:错误动作检测对于开发能够检测工作者错误并提供反馈的智能档案至关重要。现有研究主要集中在自由风格活动中明显错误的检测,导致只有视频的方法。然而,在文本引导的活动中,模型在不参考文本的情况下无法判断某些动作的正确性。此外,目前的错误数据集在记录视频时很少使用操作性文本,除了烹饪领域。为填补这些空白,本文提出了EgoOops数据集,在该数据集中,第一人称视角的视频记录了遵循操作性文本时在不同领域的错误活动。该数据集包含三种类型的标注:视频与文本的对齐、错误标签和错误描述。我们还提出了一种错误检测方法,通过结合视频与文本的对齐和错误标签分类来利用文本。实验结果表明,将操作性文本纳入错误检测是必要的。数据可通过https://y-haneji.github.io/EgoOops-project-page/获取。