LLM2D

摘要

arXiv:2503.21943v1 类型: cross 摘要：文本到图像的扩散模型在生成多样化的肖像方面表现出色，但在阴影控制方面缺乏直观性。现有的编辑方法作为后处理手段，在提供跨多种风格的有效操作时存在困难。此外，这些方法要么依赖于昂贵的实地光线工作室数据收集，要么需要大量的计算资源进行训练。为了应对这些限制，我们引入了“Shadow Director”方法，该方法可以在训练良好的扩散模型中提取和操作隐藏的阴影属性。我们的方法使用一个小型的估计网络，只需要几千张合成图像和数小时的训练时间，无需昂贵的实地光线工作室数据。Shadow Director 在肖像生成过程中提供了参数化和直观的阴影形状、位置和强度控制，同时在整个多样风格中保持艺术完整性和个人身份。尽管仅在基于真实身份的合成数据上进行训练，但它能够有效地推广到具有多种风格的生成肖像，使其成为一种更易获取且资源友好的解决方案。