LLM2D

摘要

arXiv:2504.18689v1 交叉公告类型：cross 摘要：视频摘要是一种简短版本（即摘要），它提供了一个视频的快速概览，同时保留了相关的信息。在这项工作中，我们专注于总结教学视频，并提出了一种方法，将视频分解为有意义的段落，每个段落对应视频中的关键步骤。我们提出了一个名为**HierSum**的层次化方法，该方法将字幕中的细粒度局部线索与视频级别指令提供的全局上下文信息结合起来。我们的方法利用“最常重播”的统计信息作为监督信号，以识别关键段落，从而提高摘要的有效性。我们在TVSum、BLiSS、Mr.HiSum和WikiHow测试集等基准数据集上进行了评估，并展示了在F1分数和等级相关性等关键指标上，HierSum始终优于现有方法。我们还利用WikiHow和EHow视频及其包含逐步说明的文章，策划了一个新的多模态数据集。通过广泛的消融研究，我们证明，基于此数据集的训练显著提高了对目标数据集的总结效果。