LLM2D
基于视觉变压器的时空GAN在纹理图像合成中的应用
Texture Image Synthesis Using Spatial GAN Based on Vision Transformers
作者: Elahe Salari, Zohreh Azimifar
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2502.01842v2

摘要

arXiv:2502.01842v2 宣告类型: replace-cross 摘要:纹理合成是计算机视觉中的一个基本任务,其目标是生成视觉上真实且结构上一致的纹理,适用于从图形到科学模拟等各种应用。虽然传统的铺贴和基于块的技术在处理复杂纹理时经常遇到困难,但深度学习的最新进展已经彻底改变了这一领域。在本文中,我们提出了一种新的混合模型 ViT-SGAN,该模型将 Vision Transformers (ViTs) 与空间生成对抗网络 (SGAN) 融合,以解决以往方法的局限性。通过将专业的纹理描述符(如均值-方差(μ, σ)和纹理元)纳入 ViTs 的自我注意机制中,我们的模型实现了卓越的纹理合成效果。这种方法增强了模型捕捉复杂空间依赖性的能力,从而在纹理质量上超过了最先进的模型,特别是在规则和不规则纹理方面。使用 FID、IS、SSIM 和 LPIPS 等度量标准的对比实验表明,ViT-SGAN 在生成多样化的逼真纹理方面的显著改进,突显了其高效的生成能力。