LLM2D

摘要

arXiv:2504.01008v1 交叉类型: cross 摘要: 我们介绍了一种名为IntrinsiX的新方法，该方法可以从文本描述生成高质量的内在图像。与现有的文本到图像模型不同，这些模型的输出包含固定的场景照明，我们的方法预测基于物理的渲染（PBR）图。这使得生成的输出可以在核心图形应用中用于内容创建场景，这些场景支持重新照明、编辑和纹理生成任务。为了训练我们的生成器，我们利用了强大的图像先验，并为每个PBR材料成分（反射率、粗糙度、金属度、法线）预训练了单独的模型。然后，我们通过一种新的跨内在注意力形式将这些模型进行对齐，这种形式以一致性的方式连接关键特征和值特征。这使我们能够在每个输出模态之间交换信息，并获得语义上一致的PBR预测。为了为每个内在成分提供支持，我们提出了一个渲染损失，该损失提供图像领域信号来约束模型，从而有助于在输出BRDF属性中获得锐利的细节。我们的结果显示了详细且具有强大泛化能力的内在生成，与现有的使用生成图像进行内在图像分解方法相比，显著胜出。最后，我们展示了重新照明、编辑和文本条件下的房间尺度PBR纹理生成等一系列应用。