LLM2D

摘要

arXiv:2504.09738v1 类型: cross 摘要: 在视频中检测引言/字幕和主体内容之间的过渡对于内容分割、索引和推荐系统至关重要。手动标注这些过渡是劳动密集型且容易出错的，而基于启发式的方法往往无法在多样化的视频风格之间泛化。在这项工作中，我们介绍了一种基于深度学习的方法，将问题形式化为一个序列到序列的分类任务，其中视频的每一秒被标记为“引言”或“电影”。我们的方法以固定的1 FPS速率提取帧，并使用CLIP（对比语言-图像预训练）进行编码，然后使用包含学习到的位置编码的多头注意力模型处理结果特征表示。该系统在测试集上实现了F1分数为91.0%、精确率为89.0%和召回率为97.0%，并针对实时推理进行了优化，分别在CPU上达到11.5 FPS，在高端GPU上达到107 FPS。该方法在自动内容索引、亮点检测和视频摘要方面具有实际应用价值。未来的工作将探索多模态学习，结合音频特征和字幕，以进一步提高检测精度。