LLM2D

摘要

arXiv:2504.21831v1 交叉公告类型摘要：我们引入了DEEVISum（Distilled Early Exit Vision Language Model for Summarization），这是一种为分段视频摘要设计的轻量级、高效且可扩展的跨模态语言模型。DEEVISum 利用结合了文本和音频衍生信号的多模态提示，结合多阶段知识蒸馏（MSKD）和早期退出（EE），在性能和效率之间取得平衡。MSKD在基线蒸馏上的绝对F1分数改进为1.33%（0.5%），而EE将推理时间减少了大约21%，F1分数下降1.3点。在TVSum数据集上进行评估，我们的最佳模型PaLI Gemma2 3B + MSKD的F1分数为61.1，与显著更大的模型相比，其性能相当，同时保持较低的计算开销。我们公开发布了我们的代码和处理后的数据集，以支持进一步的研究。