LLM2D
早期退出和多阶段知识蒸馏在视频摘要的VLMs中的应用
Early Exit and Multi Stage Knowledge Distillation in VLMs for Video Summarization
作者: Anas Anwarul Haq Khan, Utkarsh Verma, Prateek Chanda, Ganesh Ramakrishnan
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21831v1

摘要

arXiv:2504.21831v1 交叉公告类型 摘要:我们引入了DEEVISum(Distilled Early Exit Vision Language Model for Summarization),这是一种为分段视频摘要设计的轻量级、高效且可扩展的跨模态语言模型。DEEVISum 利用结合了文本和音频衍生信号的多模态提示,结合多阶段知识蒸馏(MSKD)和早期退出(EE),在性能和效率之间取得平衡。MSKD在基线蒸馏上的绝对F1分数改进为1.33%(0.5%),而EE将推理时间减少了大约21%,F1分数下降1.3点。在TVSum数据集上进行评估,我们的最佳模型PaLI Gemma2 3B + MSKD的F1分数为61.1,与显著更大的模型相比,其性能相当,同时保持较低的计算开销。我们公开发布了我们的代码和处理后的数据集,以支持进一步的研究。