摘要
基于文本的图像生成模型能够生成高质量的人物图像,但在生成手部图像时,真实感会降低。常见的瑕疵包括不规则的手部姿势、形状、手指数量错误以及物理上不可信的手指方向。为了生成具有逼真手的图像,我们提出了一种新颖的基于扩散的架构,称为 HanDiffuser,它通过在生成过程中注入手部嵌入来实现真实感。HanDiffuser 包含两个组件:一个文本到手部参数扩散模型,用于根据输入文本提示生成 SMPL-Body 和 MANO-Hand 参数;以及一个文本引导的手部参数到图像扩散模型,用于通过根据先前组件生成的提示和手部参数来合成图像。我们结合了手部表示的多个方面,包括 3D 形状和关节级手指位置、方向和关节,以实现鲁棒的学习和可靠的推理性能。我们进行了广泛的定量和定性实验,并进行了用户研究,以证明我们的方法在生成具有高质量手的图像方面的有效性。