摘要
arXiv:2504.21831v1 交叉公告类型
摘要:我们引入了DEEVISum(Distilled Early Exit Vision Language Model for Summarization),这是一种为分段视频摘要设计的轻量级、高效且可扩展的跨模态语言模型。DEEVISum 利用结合了文本和音频衍生信号的多模态提示,结合多阶段知识蒸馏(MSKD)和早期退出(EE),在性能和效率之间取得平衡。MSKD在基线蒸馏上的绝对F1分数改进为1.33%(0.5%),而EE将推理时间减少了大约21%,F1分数下降1.3点。在TVSum数据集上进行评估,我们的最佳模型PaLI Gemma2 3B + MSKD的F1分数为61.1,与显著更大的模型相比,其性能相当,同时保持较低的计算开销。我们公开发布了我们的代码和处理后的数据集,以支持进一步的研究。