LLM2D

摘要

arXiv:2502.05130v1 交叉公告类型摘要：使用全局视角扩散或迭代生成长语音片段的先前工作要求显著的训练或推理成本。虽然最近在全景生成中多视角联合扩散的进步提供了有效的选择，但它们在严重重叠失真和高跨视图一致性成本的问题上表现不佳。我们最初通过潜空间图的连接继承现象探索了这一现象，并发现平均操作过度平滑了潜空间图的高频成分。为了解决这些问题，我们提出了Swap Forward（SaFa），这是一种帧级的潜空间交换框架，通过前后仅有的方式同步多个扩散，生成一个全局一致的长音频，同时包含更多的频谱细节。其核心在于在相邻视图之间应用双向的自我循环潜空间交换，利用逐步扩散轨迹自适应地增强高频成分，而不破坏低频成分。此外，为了确保跨视图一致性，在每个子视图的非重叠区域与参考视图之间应用单向的参考导向潜空间交换，在早期阶段提供中心化轨迹指导。定量和定性实验表明，SaFa 显著优于现有的联合扩散方法，甚至比基于训练的长语音生成模型表现更佳。此外，我们发现它也很好地适用于全景生成，实现了与更高的效率和更强的模型泛化性能相似的最佳性能。项目页面可在 https://swapforward.github.io/ 查看。