LLM2D

摘要

arXiv:2503.04821v2 通知类型: 替换交叉摘要：在复杂现实场景中进行深度估计是一个具有挑战性的任务，特别是在仅依赖单一模态（如可见光或热红外（THR）成像）的情况下。本文提出了一种新的多模态深度估计模型RTFusion，通过整合RGB和THR数据的互补优势来增强深度估计的准确性和稳健性。RGB模态提供了丰富的纹理和颜色信息，而THR模态则捕捉了热模式，确保在极端光照等不利照明条件下具有稳定性。该模型结合了独特的融合机制EGFusion，包括用于跨模态特征对齐的互惠互补注意（MCA）模块和用于提高边缘细节保留的边缘显著性增强模块（ESEM）。在MS2和ViViD++数据集上的全面实验表明，所提出的模型在各种具有挑战性的环境中（包括夜间、雨天和高反射光照条件）始终能够生成高质量的深度图。实验结果突显了所提出方法在需要可靠深度估计的应用中的潜力，例如自动驾驶、机器人技术和增强现实。