LLM2D

摘要

本文提出了 Pix2Next，一种新颖的图像到图像转换框架，旨在解决从 RGB 输入生成高质量近红外 (NIR) 图像的挑战。我们的方法在编码器-解码器架构中利用了最先进的视觉基础模型 (VFM)，并结合了交叉注意力机制来增强特征集成。这种设计捕获了详细的全局表示并保留了重要的光谱特征，将 RGB 到 NIR 的转换视为不仅仅是一个简单的域转换问题。多尺度 PatchGAN 判别器确保在各种细节级别上生成逼真的图像，而精心设计的损失函数将全局上下文理解与局部特征保留结合在一起。我们在 RANUS 数据集上进行了实验，以展示 Pix2Next 在定量指标和视觉质量方面的优势，与现有方法相比，FID 分数提高了 34.81%。此外，我们通过展示使用生成的 NIR 数据来增强有限的真实 NIR 数据集，在后续目标检测任务中提高性能，从而证明了 Pix2Next 的实际效用。所提出的方法能够在没有额外数据采集或标注工作的情况下扩展 NIR 数据集，从而有可能加速基于 NIR 的计算机视觉应用的进步。