摘要
arXiv:2503.04821v2 通知类型: 替换交叉
摘要:在复杂现实场景中进行深度估计是一个具有挑战性的任务,特别是在仅依赖单一模态(如可见光或热红外(THR)成像)的情况下。本文提出了一种新的多模态深度估计模型RTFusion,通过整合RGB和THR数据的互补优势来增强深度估计的准确性和稳健性。RGB模态提供了丰富的纹理和颜色信息,而THR模态则捕捉了热模式,确保在极端光照等不利照明条件下具有稳定性。该模型结合了独特的融合机制EGFusion,包括用于跨模态特征对齐的互惠互补注意(MCA)模块和用于提高边缘细节保留的边缘显著性增强模块(ESEM)。在MS2和ViViD++数据集上的全面实验表明,所提出的模型在各种具有挑战性的环境中(包括夜间、雨天和高反射光照条件)始终能够生成高质量的深度图。实验结果突显了所提出方法在需要可靠深度估计的应用中的潜力,例如自动驾驶、机器人技术和增强现实。