LLM2D

摘要

arXiv:2412.12771v2 宣告类型: replace-cross 摘要：使用小扩散模型生成大图像正越来越受欢迎，因为训练大模型的成本可能是 prohibitive 的。常见的方法是联合生成一系列重叠的图像块，并通过合并相邻的块来获得大图像。然而，现有方法的结果通常会表现出明显的伪影，例如接缝、不一致的对象和风格。为了解决这些问题，我们提出了引导融合（GF），通过在重叠区域应用加权平均来减轻来自遥远图像区域的负面影响。此外，我们提出了方差校正融合（VCF），它在后平均后校正数据方差，从而为去噪扩散概率模型生成更准确的融合结果。此外，我们提出了单次样式对齐（SA），通过调整初始输入噪声生成大型图像的一致风格，而不增加额外的计算负担。广泛的实验表明，所提出的融合方法显著提高了生成图像的质量。所提出的方法可以广泛应用于增强其他基于融合的方法，以生成大图像。代码：https://github.com/TitorX/GVCFDiffusion