摘要
arXiv:2504.10106v1 类型: cross
摘要:体育视频分析是计算机视觉中的一个关键领域,通过多视角对应关系实现详细的三维空间理解。在本文中,我们介绍了SoccerNet-v3D和ISSIA-3D,这两个增强且可扩展的数据集,用于足球广播分析中的三维场景理解。这些数据集扩展了SoccerNet-v3和ISSIA,并结合了基于场线的相机校准和多视角同步,通过三角测量实现三维物体定位。我们提出了一个基于三角测量的二维真实球标注的一目测三维球定位任务,并提出了一些校准和重投影指标,以根据需求评估标注质量。此外,我们提出了一种基于单张图像的三维球定位方法作为基线,利用相机校准和球体大小先验估计一目测视角下的球体位置。为了进一步细化二维标注,我们引入了一种边界框优化技术,以确保与三维场景表示的对齐。我们提出的这些数据集为三维足球场景理解设置了新的基准,提高了体育分析中的空间和时间分析能力。最后,我们提供了代码以方便访问我们的标注以及数据集生成流水线。