摘要
近两年来,文本到图像扩散模型变得极其流行。随着其质量和使用率的提高,人们越来越关注如何更好地控制输出。除了提示工程外,提高扩散模型可控性的有效方法之一是将其与其他模态(例如图像风格、深度图或关键点)结合起来。这就是ControlNets或Adapters的基础。当尝试应用这些方法来控制文本到图像扩散模型输出中的人体姿势时,出现了两个主要挑战。第一个挑战是根据各种语义文本描述生成姿势,以前的方法需要在一个(标题、姿势)对的数据集中搜索姿势。第二个挑战是在保持高审美和高姿势保真度的同时,根据指定的姿势调整图像生成。在本文中,我们通过引入一个文本到姿势 (T2P) 生成模型、一种新的采样算法和一个新的姿势适配器(该适配器包含更多关键点以实现更高的姿势保真度)来解决这两个主要问题。这两个新的最先进模型共同实现了第一个生成式文本到姿势到图像框架,从而在扩散模型中实现更高的姿势控制。我们已在 https://github.com/clement-bonnet/text-to-pose 发布所有模型和实验代码。