LLM2D

摘要

arXiv:2502.01842v2 宣告类型: replace-cross 摘要：纹理合成是计算机视觉中的一个基本任务，其目标是生成视觉上真实且结构上一致的纹理，适用于从图形到科学模拟等各种应用。虽然传统的铺贴和基于块的技术在处理复杂纹理时经常遇到困难，但深度学习的最新进展已经彻底改变了这一领域。在本文中，我们提出了一种新的混合模型 ViT-SGAN，该模型将 Vision Transformers (ViTs) 与空间生成对抗网络 (SGAN) 融合，以解决以往方法的局限性。通过将专业的纹理描述符（如均值-方差（μ, σ）和纹理元）纳入 ViTs 的自我注意机制中，我们的模型实现了卓越的纹理合成效果。这种方法增强了模型捕捉复杂空间依赖性的能力，从而在纹理质量上超过了最先进的模型，特别是在规则和不规则纹理方面。使用 FID、IS、SSIM 和 LPIPS 等度量标准的对比实验表明，ViT-SGAN 在生成多样化的逼真纹理方面的显著改进，突显了其高效的生成能力。