LLM2D

摘要

基于文本的图像生成模型能够生成高质量的人物图像，但在生成手部图像时，真实感会降低。常见的瑕疵包括不规则的手部姿势、形状、手指数量错误以及物理上不可信的手指方向。为了生成具有逼真手的图像，我们提出了一种新颖的基于扩散的架构，称为 HanDiffuser，它通过在生成过程中注入手部嵌入来实现真实感。HanDiffuser 包含两个组件：一个文本到手部参数扩散模型，用于根据输入文本提示生成 SMPL-Body 和 MANO-Hand 参数；以及一个文本引导的手部参数到图像扩散模型，用于通过根据先前组件生成的提示和手部参数来合成图像。我们结合了手部表示的多个方面，包括 3D 形状和关节级手指位置、方向和关节，以实现鲁棒的学习和可靠的推理性能。我们进行了广泛的定量和定性实验，并进行了用户研究，以证明我们的方法在生成具有高质量手的图像方面的有效性。