LLM2D

摘要

arXiv:2502.01842v1 Announce Type: cross 摘要：纹理合成是计算机视觉中的一个基础任务，其目标是在从图形到科学模拟等多种应用中生成视觉上真实且结构上一致的纹理。虽然传统的平铺方法和基于补丁的技术在处理复杂纹理时常常遇到困难，但深度学习的最新进展已经彻底改变了这一领域。在本文中，我们提出了一种名为 ViT-SGAN 的新型混合模型，该模型将视觉变换器（ViTs）与空间生成对抗网络（SGAN）相结合，以解决先前方法的局限性。通过将均值-方差（μ, σ）和纹理单元这样的专用纹理描述符融入 ViTs 的自注意力机制中，我们的模型实现了卓越的纹理合成效果。这种方法增强了模型捕捉复杂空间依赖性的能力，从而提高了纹理质量，使其在现有最先进的模型中更为出色，特别是在处理规则和不规则纹理时。使用 FID、IS、SSIM 和 LPIPS 等指标的比较实验表明，ViT-SGAN 在生成多样化的真实纹理方面取得了显著的改进，突显了其高效的生成能力。