LLM2D

摘要

视觉故事生成是指根据时间顺序排列的图像序列生成自然语言故事。这项任务不仅对模型来说极具挑战，而且也很难用自动指标进行评估，因为对于什么是“好的”故事还没有共识。在本文中，我们提出了一种新方法，该方法根据人类对之前工作中强调的三个关键方面的相似度来衡量故事质量：视觉基础、连贯性和重复性。然后，我们使用这种方法来评估几种模型生成的故事情节，结果表明，基础模型LLaVA取得了最佳结果，但与TAPM（一个规模小 50 倍的视觉故事生成模型）相比，优势并不明显。升级TAPM的视觉和语言组件会产生一个模型，该模型在参数数量相对较少的情况下，可以获得具有竞争力的性能。最后，我们进行了一项人类评估研究，其结果表明，一个“好的”故事可能需要比人类水平的视觉基础、连贯性和重复性更多的东西。