LLM2D
揭示无形:用隐喻为视频配字幕
Unveiling the Invisible: Captioning Videos with Metaphors
作者: Abisek Rajakumar Kalarani, Pushpak Bhattacharyya, Sumit Shekhar
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2406.04886v2

摘要

隐喻是日常生活中常用的沟通工具。文本形式的隐喻检测和生成已被广泛研究,但其他形式的隐喻却鲜有研究。最近的研究表明,视觉-语言 (VL) 模型无法理解模因和广告中的视觉隐喻。截至目前,还没有针对视频中复杂语言现象(如隐喻)进行探究。因此,我们在这项工作中引入了一项新的 VL 任务,即描述视频中存在的隐喻。为了促进这项新任务,我们构建并发布了一个包含 705 个视频和 2115 个人工撰写字幕的手动创建数据集,以及一个名为平均概念距离 (ACD) 的新指标,用于自动评估生成的隐喻的创造力。我们还提出了一种新颖的低资源视频隐喻字幕系统:GIT-LLaVA,它在所提任务上取得了与最先进的视频语言模型相当的性能。我们对现有视频语言模型在这项任务上的表现进行了全面分析,并将我们的数据集、模型和基准结果公布,以促进进一步的研究。