LLM2D

摘要

arXiv:2404.11016v2 宣告类型: 替换-交叉摘要: 在本文中，我们介绍了一种新的自动编码器模型MaeFuse，该模型专为红外和可见光图像融合（IVIF）设计。现有的图像融合方法通常依赖于结合下游任务进行训练以获得高级视觉信息，这种方法在强调目标对象和在视觉质量和特定任务应用中取得惊人成果方面是有效的。与依赖于下游任务不同，我们的模型MaeFuse利用来自掩码自动编码器（MAE）的预训练编码器进行低级重建和高级视觉任务的全方位特征提取，从而以较低的成本获得易于感知的特征。为了消除不同模态特征之间的领域差距以及MAE编码器导致的块效应，我们进一步开发了一种引导式训练策略。该策略精心设计，以确保融合层无缝调整到编码器的特征空间，逐步提高融合性能。所提出的方法可以促进来自红外和可见光模态的特征向量的综合集成，从而保留每个模态固有的丰富细节。MaeFuse不仅在融合技术领域提供了新颖的视角，而且在各种公开数据集中表现出色。