LLM2D

摘要

扩散模型 (DM) 能够从噪声生成图像并从数据中进行反演，已催生出强大的非配对图像到图像 (I2I) 翻译算法。然而，它们通常需要大量的神经网络函数评估 (NFE)，限制了其实际应用。本文利用薛定谔桥 (SB) 来解决这个问题，薛定谔桥是具有最小传输成本的分布之间的随机微分方程 (SDE)。我们分析了 SB 的概率流常微分方程 (ODE) 公式，并观察到可以将其向量场分解为源预测器、目标预测器和噪声预测器的线性组合。受此观察的启发，我们提出了潜在薛定谔桥 (LSB)，它通过预训练的稳定扩散来逼近 SB ODE，并开发了合适的提示优化和变量变换公式，以匹配分布之间的训练和推理。我们证明了我们的算法能够在无监督设置下成功地进行具有竞争力的 I2I 翻译，而计算成本仅为以往基于 DM 的 I2I 方法所需的一小部分。