LLM2D

摘要

arXiv:2504.16788v1 交叉公告类型摘要：理解并分析视频动作对于生成洞察性和情境化的描述至关重要，尤其是在基于视频的应用如智能监控和自主系统中。本文提出了一种新的框架，通过结合文本和视觉模态来从视频数据集中生成自然语言描述。所提议的架构使用ResNet50从Microsoft Research Video Description Corpus (MSVD)和Berkeley DeepDrive eXplanation (BDD-X)数据集中获取的视频帧中提取视觉特征，并将提取出的视觉特征转换为补丁嵌入，然后通过基于生成预训练变换器2 (GPT-2) 的编码器-解码器模型进行处理。为了使文本和视觉表示一致并确保高质量描述的生成，该系统使用了多头自注意力和跨注意力技术。通过使用BLEU (1-4)、CIDEr、METEOR和ROUGE-L进行性能评估，展示了该模型的有效性。该提议的框架在BLEU-4上优于传统方法，BDD-X得分为0.755，MSVD得分为0.778；CIDEr上，BDD-X得分为1.235，MSVD得分为1.315；METEOR上，BDD-X得分为0.312，MSVD得分为0.329；ROUGE-L上，BDD-X得分为0.782，MSVD得分为0.795。通过生成人类般、情境相关性的描述，加强可解释性，并改善实际应用，这项研究推进了可解释的人工智能。