摘要
传统的视频字幕生成方法依赖于各种离线提取的特征。尽管各种离线特征提取器可以从不同角度提供多样化的信息,但由于参数固定,它们存在一些局限性。具体来说,这些提取器仅在图像/视频理解任务上进行预训练,使其难以适应视频字幕数据集。此外,大多数这些提取器只捕捉预训练任务分类器之前的特征,忽略了大量有价值的浅层信息。此外,使用多个离线特征可能会引入冗余信息。为了解决这些问题,我们提出了一种基于端到端编码器-解码器网络的视频字幕生成方法(EVC-MF),该方法有效地利用多尺度视觉和文本特征来生成视频描述。具体来说,EVC-MF 包含三个模块。首先,我们不依赖多个特征提取器,而是直接将视频帧输入基于Transformer的网络以获得多尺度视觉特征并更新特征提取器参数。其次,我们将多尺度特征融合并输入到掩码编码器中,以减少冗余并鼓励学习有用的特征。最后,我们利用一个增强的基于Transformer的解码器,它可以有效地利用浅层文本信息来生成视频描述。为了评估我们提出的模型,我们在基准数据集上进行了大量的实验。结果表明,与最先进的方法相比,EVC-MF 取得了具有竞争力的性能。