LLM2D

摘要

arXiv:2503.20871v1 Announce Type: cross 摘要：视觉叙事生成将文本叙述转换为一系列图像，以说明文本内容。然而，生成既忠实于输入文本又在生成图像间保持自洽性的视觉叙事仍是一项开放的挑战，因为缺乏用于规划故事的知识约束。在此工作中，我们提出一个新的基准VinaBench，以应对这一挑战。我们的基准标注了视觉叙事样本中的潜在常识性及话语约束，为学习视觉叙事中的隐含策略提供了系统性的支撑。基于整合的叙述约束，我们进一步提出新的评估指标，以密切评估生成的叙事图像的一致性，并评估生成的结果与输入文本叙述的一致性。我们在三个生成型视觉模型上的结果表明，使用VinaBench的知识约束进行学习可以有效地提高生成视觉叙事的真实性和连贯性。