摘要
本文提出了一种用于对讲座视频与对应幻灯片进行对齐的基准数据集,并介绍了一种利用语音、文本和图像特征的多模态算法。该算法与 SIFT 相比,平均精度达到了 0.82,同时速度快了约 11 倍。该算法利用动态规划来确定最佳幻灯片序列。结果表明,对幻灯片转换进行惩罚可以提高准确率。通过光学字符识别 (OCR) 获得的特征对匹配精度贡献最大,其次是图像特征。研究结果表明,仅音频转录本身就能提供有价值的对齐信息,并且在缺少 OCR 数据时是有益的。不同讲座之间匹配精度的差异突出了与视频质量和讲座风格相关的挑战。这种新颖的多模态算法证明了对某些挑战的鲁棒性,突出了该方法的潜力。