LLM2D
文本到图像扩散模型中的人物肖像光影参数控制
Parametric Shadow Control for Portrait Generation in Text-to-Image Diffusion Models
作者: Haoming Cai, Tsung-Wei Huang, Shiv Gehlot, Brandon Y. Feng, Sachin Shah, Guan-Ming Su, Christopher Metzler
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2503.21943v2

摘要

arXiv:2503.21943v2 Announce Type: replace-cross 摘要:文本到图像的扩散模型在生成多样的肖像方面表现出色,但在阴影控制方面缺乏直观性。现有的编辑方法作为后处理手段,在实现多样风格的有效操作方面存在困难。此外,这些方法要么依赖于昂贵的现实世界的光场数据收集,要么需要大量的计算资源进行训练。为了解决这些局限性,我们介绍了一种名为Shadow Director的方法,该方法可以从训练良好的扩散模型中提取和操纵隐藏的阴影属性。我们的方法使用一个小型估计网络,仅需几千张合成图像和数小时的训练时间,无需昂贵的现实世界光场数据。Shadow Director在肖像生成过程中提供了参数化和直观的阴影形状、位置和强度的控制,同时保持了多样风格下的艺术完整性与个体识别。尽管仅在基于真实世界身份的合成数据上进行训练,但Shadow Director能够有效地推广到具有多样风格的生成肖像,使其成为一种更加易于访问且资源友好的解决方案。