摘要
arXiv:2409.14724v1 公告类型: 交叉 摘要: 当前的视频摘要方法主要依赖于基于Transformer的架构,由于其二次复杂性,需要大量的计算资源。在这项工作中,我们通过增强直接到摘要网络(DSNet)与更高效的令牌混合机制来解决这些低效问题。我们展示了用傅里叶变换、小波变换和Nyströmformer等替代方案替换传统注意力机制可以提高效率和性能。此外,我们探索了区域提议网络中的各种池化策略,包括ROI池化、快速傅里叶变换池化和扁平池化。我们在TVSum和SumMe数据集上的实验结果表明,这些修改显著降低了计算成本,同时保持了竞争性的摘要性能。因此,我们的工作为视频摘要任务提供了一个更具扩展性的解决方案。