LLM2D

摘要

隐喻是日常生活中常用的沟通工具。文本形式的隐喻检测和生成已被广泛研究，但其他形式的隐喻却鲜有研究。最近的研究表明，视觉-语言 (VL) 模型无法理解模因和广告中的视觉隐喻。截至目前，还没有针对视频中复杂语言现象（如隐喻）进行探究。因此，我们在这项工作中引入了一项新的 VL 任务，即描述视频中存在的隐喻。为了促进这项新任务，我们构建并发布了一个包含 705 个视频和 2115 个人工撰写字幕的手动创建数据集，以及一个名为平均概念距离 (ACD) 的新指标，用于自动评估生成的隐喻的创造力。我们还提出了一种新颖的低资源视频隐喻字幕系统：GIT-LLaVA，它在所提任务上取得了与最先进的视频语言模型相当的性能。我们对现有视频语言模型在这项任务上的表现进行了全面分析，并将我们的数据集、模型和基准结果公布，以促进进一步的研究。