LLM2D

摘要

arXiv:2409.14724v1 公告类型: 交叉摘要: 当前的视频摘要方法主要依赖于基于Transformer的架构，由于其二次复杂性，需要大量的计算资源。在这项工作中，我们通过增强直接到摘要网络（DSNet）与更高效的令牌混合机制来解决这些低效问题。我们展示了用傅里叶变换、小波变换和Nyströmformer等替代方案替换传统注意力机制可以提高效率和性能。此外，我们探索了区域提议网络中的各种池化策略，包括ROI池化、快速傅里叶变换池化和扁平池化。我们在TVSum和SumMe数据集上的实验结果表明，这些修改显著降低了计算成本，同时保持了竞争性的摘要性能。因此，我们的工作为视频摘要任务提供了一个更具扩展性的解决方案。