摘要
arXiv:2503.21848v1 声称类型: cross
摘要:新闻视频需要高效的內容组织和检索系统,但其非结构化特性对自动处理提出了重大挑战。本文提出了对图像、视频和音频分类器进行自动新闻视频分割的全面对比分析。这项工作展示了开发和评估了多种深度学习方法,包括ResNet、ViViT、AST和多模态架构,用于分类五种不同类型的片段:广告、故事、演播室场景、过渡和可视化。使用包含41个新闻视频和1,832个场景片段的自标注数据集,我们的实验表明,基于图像的分类器在准确率方面表现出色(84.34%),优于更为复杂的时序模型。特别地,ResNet架构在性能上超过了最先进的视频分类器,同时所需计算资源明显较少。二元分类模型在过渡(94.23%)和广告(92.74%)分类上获得了较高的准确率。这些发现推进了新闻视频分割有效架构的理解,并为在媒体应用中实现自动内容组织系统提供了实用见解,包括媒体归档、个性化内容分发和智能视频搜索。