LLM2D

摘要

arXiv:2503.18627v1 交叉类型：图像融合摘要：图像融合通过多源图像整合互补信息以生成更具有信息量的结果。最近，展示出了前所未有的生成潜力的扩散模型被探索应用于图像融合。然而，这些方法通常将预设的多模态指导引入扩散模型中，这未能捕捉每个模态动态变化的重要性，同时缺乏理论保证。为了解决这一问题，我们揭示了图像去噪中的时空失衡；具体来说，在去噪步骤中，扩散模型在不同的图像区域产生了动态的信息增益。基于这一观察，我们深入探讨了扩散信息增益（Dig2DIG），并在此基础上理论推导出一种证明能降低一般化误差上界的动力学图像融合框架。因此，我们引入了扩散信息增益（DIG）来量化各模态在不同去噪步中的信息贡献，从而在融合过程中提供动态指导。在多个融合场景下的广泛实验证实，我们的方法在融合质量和推理效率方面均优于现有的基于扩散的方法。