LLM2D

摘要

arXiv:2501.16100v2 宣告类型: 替换-交叉摘要：本文提出了一种基于深度学习且轻量级的方法，用于从音视频源自动检测体育精彩片段（HLs）。体育视频分析中的精彩片段检测是一项传统上需要大量人工干预的关键任务。我们的解决方案利用了在相对较小的音频梅尔频谱图和灰度视频帧数据集上训练的深度学习（DL）模型，分别在音视频检测中达到了89%和83%的有前途的准确率。结合使用小型数据集和简单架构，显示出我们的方法在快速且低成本部署方面的实用性。此外，结合两种模态的集成模型提高了对假阳性及假阴性的鲁棒性。 proposed 方法论提供了一种针对各种体育视频内容的可扩展解决方案，用于自动化精彩片段检测，从而减少了人工干预的需要。未来的工作将集中在改进模型架构，并将此方法扩展到媒体分析中的更广泛的场景检测任务上。