LLM2D

摘要

arXiv:2503.20871v2 构建类型: replace-cross 摘要：视觉叙事生成将文本叙述转化为一系列图像，以说明文本内容。然而，生成忠实于输入文本并在生成图像之间自洽的视觉叙事仍旧是一个开放的挑战，因为缺乏用于规划故事的知识约束。在本文中，我们提出了一种新的基准测试VinaBench，以解决这一挑战。我们的基准测试对视觉叙事样本下的常识和话语约束进行了注释，为学习视觉叙事的隐含策略提供了系统化的支撑。基于整合的叙事约束，我们进一步提出了一种新的评价指标，以密切评估生成的叙事图像的一致性和生成与输入文本叙述的对齐情况。在三种生成计算视觉模型上的结果表明，使用VinaBench的知识约束进行学习有效提高了生成视觉叙事的忠实性和连贯性。