LLM2D

摘要

arXiv:2504.19267v1 交叉声明类型摘要：视觉讲故事是一个将计算机视觉和自然语言处理相结合的跨学科领域，旨在从一系列图像中生成连贯的故事叙述。本文提出了一种新的方法，利用了最近在多模态模型中的进展，特别是适应了基于变压器的架构和大规模多模态模型，用于视觉讲故事任务。利用大规模视觉讲故事（VIST）数据集，我们的VIST-GPT模型生成了与视觉内容紧密结合、语境适当的叙述。我们解决了传统评估指标的局限性，如BLEU、METEOR、ROUGE和CIDEr，这些指标不适合此任务。相反，我们使用RoViST和GROOVIST，这是一种新的无需参考的指标，旨在评估视觉讲故事的质量，重点是视觉语境化、连贯性和非冗余性。这些指标提供了对叙述质量更为细致的评估，与人类判断紧密一致。