LLM2D

摘要

arXiv:2503.21848v1 声称类型: cross 摘要：新闻视频需要高效的內容组织和检索系统，但其非结构化特性对自动处理提出了重大挑战。本文提出了对图像、视频和音频分类器进行自动新闻视频分割的全面对比分析。这项工作展示了开发和评估了多种深度学习方法，包括ResNet、ViViT、AST和多模态架构，用于分类五种不同类型的片段：广告、故事、演播室场景、过渡和可视化。使用包含41个新闻视频和1,832个场景片段的自标注数据集，我们的实验表明，基于图像的分类器在准确率方面表现出色（84.34%），优于更为复杂的时序模型。特别地，ResNet架构在性能上超过了最先进的视频分类器，同时所需计算资源明显较少。二元分类模型在过渡（94.23%）和广告（92.74%）分类上获得了较高的准确率。这些发现推进了新闻视频分割有效架构的理解，并为在媒体应用中实现自动内容组织系统提供了实用见解，包括媒体归档、个性化内容分发和智能视频搜索。