摘要
arXiv:2503.23353v1 Announce Type: cross
摘要:开放性故事情绪可视化是一项挑战性的任务,涉及从给定故事情节生成连贯的图像序列。主要困难之一是在创建自然且符合情境的画面时保持人物一致性——许多现有方法在这方面存在问题。在本文中,我们提出了一种增强的Transformer模块,该模块利用了预训练扩散模型的先验知识,以确保逻辑场景的生成。分离的自我注意力机制通过细化注意力图来减少对无关区域的关注,突出相同角色的关键特征,从而改善人物一致性。同时,分离的交叉注意力机制独立处理每个角色的特征,避免特征融合,进一步增强一致性。值得注意的是,我们的方法无需训练,允许连续生成新的角色和故事情节,无需重新调整。定性和定量评估结果表明,我们的方法优于当前的方法,显示出其有效性。