LLM2D

摘要

arXiv:2409.13555v1 公告类型: 交叉摘要: 角色在叙事中至关重要。他们推动情节发展，建立情感联系，并体现故事的主题。视觉叙事方法更侧重于情节及其相关事件，而不围绕特定角色构建叙事。因此，生成的故事显得通用，角色提及缺失、模糊或不准确。为了解决这些问题，我们引入了以角色为中心的故事生成这一新任务，并提出了首个能够预测具有一致且连贯角色提及的视觉故事的模型。我们的模型在一个新数据集上进行了微调，该数据集基于广泛使用的VIST基准构建。具体来说，我们开发了一个自动化流程，以视觉和文本角色共指链丰富VIST。我们还提出了新的评估指标，以衡量故事中角色的丰富性和共指性。实验结果表明，与基线和最先进的系统相比，我们的模型生成的故事中角色反复出现，且在更大程度上保持一致和共指。