LLM2D
CreativeSynth:跨艺术注意力机制下的多模态扩散艺术图像合成
CreativeSynth: Cross-Art-Attention for Artistic Image Synthesis with Multimodal Diffusion
作者: Nisha Huang, Weiming Dong, Yuxin Zhang, Fan Tang, Ronghui Li, Chongyang Ma, Xiu Li, Tong-Yee Lee, Changsheng Xu
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2401.14066v3

摘要

arXiv:2401.14066v3 宣布类型: replace-cross 摘要:尽管在图像风格转换方面取得了显著进展,但风格只是艺术画作的一个组成部分。直接将提取的风格特征转移到自然图像中往往会导致输出带有明显的合成痕迹。这是因为包括布局、视角、形状和语义等关键绘画属性往往无法通过风格转换来传达和表达。大规模预训练的文本到图像生成模型已经展示了它们生成大量高质量图像的能力。然而,即使提供了广泛的文本描述,也很难完全表达绘画的独特视觉特性和细节。此外,通用模型在修改特定区域时往往会破坏整体的艺术效果,使得在艺术作品中实现统一的美学效果变得更加复杂。我们主要的创新思想是将多模态语义信息作为合成指南整合到艺术作品中,而不是将风格转换到现实世界中。我们还旨在减少对艺术作品和谐性的破坏并简化指导条件。具体而言,我们基于协调多模态输入的扩散模型,提出了一种创新的多任务统一框架,称为CreativeSynth。CreativeSynth通过Cross-Art-Attention实现美学维护和语义融合,将多模态特征与定制的注意力机制相结合,无缝地将现实世界的语义内容整合到艺术领域中。我们展示了在不同艺术类别上的方法结果,证明CreativeSynth填补了生成模型与艺术表达之间的差距。代码和结果可在 https://github.com/haha-lisa/CreativeSynth 获取。