摘要
大规模文本引导图像扩散模型在文本到图像 (T2I) 生成方面取得了惊人的成果。然而,由于 2D 图像和 3D 表面纹理之间的领域差异,将这些模型应用于合成 3D 几何体的纹理仍然具有挑战性。早期的工作使用投影和修复方法设法保留了生成的多样性,但往往会导致明显的伪影和风格不一致。虽然最近的方法试图解决这些不一致问题,但它们往往会引入其他问题,例如模糊、过度饱和或过度平滑。为了克服这些挑战,我们提出了一种利用预训练扩散模型的新型文本到纹理合成框架。我们首先在自注意力层中引入局部注意力重新加权机制,以引导模型集中于不同视图的跨空间相关补丁,从而增强局部细节,同时保持跨视图一致性。此外,我们提出了一种新颖的潜在空间合并管道,它进一步确保了不同视角之间的一致性,而不会牺牲太多多样性。我们的方法在纹理一致性和视觉质量方面明显优于现有的最先进技术,同时提供比蒸馏方法快得多的结果。重要的是,我们的框架不需要额外的训练或微调,使其高度适应公共平台上提供的各种模型。