LLM2D
迈向可解释的AI:基于视频的图像描述生成的多模态变换器
Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation
作者: Lakshita Agarwal, Bindu Verma
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.16788v1

摘要

arXiv:2504.16788v1 交叉公告类型 摘要:理解并分析视频动作对于生成洞察性和情境化的描述至关重要,尤其是在基于视频的应用如智能监控和自主系统中。本文提出了一种新的框架,通过结合文本和视觉模态来从视频数据集中生成自然语言描述。所提议的架构使用ResNet50从Microsoft Research Video Description Corpus (MSVD)和Berkeley DeepDrive eXplanation (BDD-X)数据集中获取的视频帧中提取视觉特征,并将提取出的视觉特征转换为补丁嵌入,然后通过基于生成预训练变换器2 (GPT-2) 的编码器-解码器模型进行处理。为了使文本和视觉表示一致并确保高质量描述的生成,该系统使用了多头自注意力和跨注意力技术。通过使用BLEU (1-4)、CIDEr、METEOR和ROUGE-L进行性能评估,展示了该模型的有效性。该提议的框架在BLEU-4上优于传统方法,BDD-X得分为0.755,MSVD得分为0.778;CIDEr上,BDD-X得分为1.235,MSVD得分为1.315;METEOR上,BDD-X得分为0.312,MSVD得分为0.329;ROUGE-L上,BDD-X得分为0.782,MSVD得分为0.795。通过生成人类般、情境相关性的描述,加强可解释性,并改善实际应用,这项研究推进了可解释的人工智能。