LLM2D

摘要

arXiv:2504.00401v1 Announce Type: cross 摘要：广角摄像头尽管因其在内容创作中的受欢迎程度而受到关注，但由于透镜边缘的失真引起的面部拉伸而导致视觉吸引力下降。为了解决这一问题，我们提出了一种名为ImagePD的图象肖像矫正框架，它将变压器的长范围感知与扩散模型的多步降噪整合到一个统一框架中，实现了全局结构的鲁棒性和局部细节的精炼。此外，考虑到获得视频标签的成本较高，我们通过时空扩散适配，结合空间一致性和时间平滑性约束，将ImagePD应用于无标签的广角视频（称为VideoPD）。对于前者，我们鼓励去噪后的图像按广角失真的分布模式近似伪标签，而对于后者，我们通过反向光学流推导矫正轨迹并进行平滑。与ImagePD相比，VideoPD在空间上保持高质量的面部修正，并按顺序缓解潜在的时间抖动。最后，为了建立评估基准并训练框架，我们建立了一个具有丰富人数、光照条件和背景多样性的视频肖像数据集。实验表明，所提出的方法在定量和定性上优于现有解决方案，有助于生成具有稳定自然肖像的高质量广角视频。代码和数据集将可供下载。