LLM2D

摘要

arXiv:2504.19267v2 通知类型: 替换-跨领域摘要：视觉讲故事是一个结合计算机视觉和自然语言处理的跨学科领域，用于从图像序列中生成连贯的故事叙述。本文提出了一种新方法，利用最新的多模态模型进展，特别是适应基于变换器的架构和大型多模态模型，以解决视觉讲故事任务。依托大规模视觉讲故事（VIST）数据集，我们的VIST-GPT模型生成了视觉上合理的、上下文适配的叙述。我们针对传统的评估指标（如BLEU、METEOR、ROUGE和CIDEr），这些指标不适用于此任务，进行了改进。相反，我们使用了RoViST和GROOVIST这两种新颖的参考自免费指标，旨在评估视觉讲故事，重点关注视觉定位、连贯性和非冗余性。这些指标提供了对叙述质量更细致的评估，与人类判断高度一致。