LLM2D

摘要

arXiv:2503.20871v3 通知类型: replace-cross 摘要：视觉叙事生成将文本叙述转换为展示文本内容的图像序列。然而，生成既忠实于输入文本又在生成图像之间自洽的视觉叙事仍然是一个开放的挑战，原因是对用于规划故事的知识约束不足。在这项工作中，我们提出了一个新的基准——VinaBench，以应对这一挑战。我们的基准为视觉叙事样本标注了底层的常识性和语用性约束，提供了一个系统的学习视觉叙事隐含策略的支架。基于整合的叙事约束，我们进一步提出了新的度量标准，以更紧密地评估生成叙事图像的一致性和生成与输入文本叙事的对齐程度。我们在三种生成视觉模型中的结果表明，使用VinaBench的知识约束进行学习有效提升了生成视觉叙事的忠实性和连贯性。