LLM2D

摘要

传统的视频字幕生成方法依赖于各种离线提取的特征。尽管各种离线特征提取器可以从不同角度提供多样化的信息，但由于参数固定，它们存在一些局限性。具体来说，这些提取器仅在图像/视频理解任务上进行预训练，使其难以适应视频字幕数据集。此外，大多数这些提取器只捕捉预训练任务分类器之前的特征，忽略了大量有价值的浅层信息。此外，使用多个离线特征可能会引入冗余信息。为了解决这些问题，我们提出了一种基于端到端编码器-解码器网络的视频字幕生成方法（EVC-MF），该方法有效地利用多尺度视觉和文本特征来生成视频描述。具体来说，EVC-MF 包含三个模块。首先，我们不依赖多个特征提取器，而是直接将视频帧输入基于Transformer的网络以获得多尺度视觉特征并更新特征提取器参数。其次，我们将多尺度特征融合并输入到掩码编码器中，以减少冗余并鼓励学习有用的特征。最后，我们利用一个增强的基于Transformer的解码器，它可以有效地利用浅层文本信息来生成视频描述。为了评估我们提出的模型，我们在基准数据集上进行了大量的实验。结果表明，与最先进的方法相比，EVC-MF 取得了具有竞争力的性能。