LLM2D

摘要

arXiv:2503.23353v1 Announce Type: cross 摘要：开放性故事情绪可视化是一项挑战性的任务，涉及从给定故事情节生成连贯的图像序列。主要困难之一是在创建自然且符合情境的画面时保持人物一致性——许多现有方法在这方面存在问题。在本文中，我们提出了一种增强的Transformer模块，该模块利用了预训练扩散模型的先验知识，以确保逻辑场景的生成。分离的自我注意力机制通过细化注意力图来减少对无关区域的关注，突出相同角色的关键特征，从而改善人物一致性。同时，分离的交叉注意力机制独立处理每个角色的特征，避免特征融合，进一步增强一致性。值得注意的是，我们的方法无需训练，允许连续生成新的角色和故事情节，无需重新调整。定性和定量评估结果表明，我们的方法优于当前的方法，显示出其有效性。