摘要
arXiv:2504.19267v2 通知类型: 替换-跨领域
摘要:视觉讲故事是一个结合计算机视觉和自然语言处理的跨学科领域,用于从图像序列中生成连贯的故事叙述。本文提出了一种新方法,利用最新的多模态模型进展,特别是适应基于变换器的架构和大型多模态模型,以解决视觉讲故事任务。依托大规模视觉讲故事(VIST)数据集,我们的VIST-GPT模型生成了视觉上合理的、上下文适配的叙述。我们针对传统的评估指标(如BLEU、METEOR、ROUGE和CIDEr),这些指标不适用于此任务,进行了改进。相反,我们使用了RoViST和GROOVIST这两种新颖的参考自免费指标,旨在评估视觉讲故事,重点关注视觉定位、连贯性和非冗余性。这些指标提供了对叙述质量更细致的评估,与人类判断高度一致。