LLM2D

摘要

近年来，文本到图像扩散模型的进步激发了人们对连续故事图像生成的极大兴趣。本文介绍了 Storynizor，这是一个能够生成连贯故事的模型，具有强烈的帧间角色一致性、有效的背景分离和多样化的姿势变化。Storynizor 的核心创新在于其关键模块：ID-Synchronizer 和 ID-Injector。ID-Synchronizer 采用自动掩码自注意力模块和跨帧图像的掩码感知损失，以提高角色生成的连贯性，生动地展现其姿势和背景。ID-Injector 利用洗牌参考策略 (SRS) 将 ID 特征集成到特定位置，增强基于 ID 的一致角色生成。此外，为了促进 Storynizor 的训练，我们精心策划了一个名为 StoryDB 的新数据集，其中包含 100,000 张图像。该数据集包含在不同环境、布局和手势中的人物单人和多人集，并附有详细描述。实验结果表明，与其他特定角色方法相比，Storynizor 在连贯故事生成方面表现出优异的性能，具有高保真角色一致性、灵活的姿势和生动的背景。