LLM2D
MCGM:掩码条件文本到图像生成模型
MCGM: Mask Conditional Text-to-Image Generative Model
作者: Rami Skaik, Leonardo Rossi, Tomaso Fontanini, Andrea Prati
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00483v1

摘要

近年来,生成模型的进步彻底改变了人工智能领域,使得能够生成高度逼真且详细的图像。在本研究中,我们提出了一种新颖的掩码条件文本到图像生成模型(MCGM),它利用条件扩散模型的强大功能来生成具有特定姿势的图片。我们的模型建立在 Break-a-scene [1] 模型的成功基础上,该模型使用包含多个主题的单个图像生成新场景,并结合了掩码嵌入注入,允许对生成过程进行条件化。通过引入这种额外的控制级别,MCGM 提供了一种灵活直观的方法来生成从单个图像中学习的一个或多个主题的特定姿势,使用户能够根据自己的要求影响输出。通过广泛的实验和评估,我们证明了我们提出的模型在生成满足预定义掩码条件的高质量图像以及改进当前 Break-a-scene 生成模型方面的有效性。