LLM2D
RGB-热图像分割语言辅助蒸馏模型
Segment Any RGB-Thermal Model with Language-aided Distillation
作者: Dong Xing, Xianxun Zhu, Wei Zhou, Qika Lin, Hang Yang, Yuqing Wang
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01950v1

摘要

arXiv:2505.01950v1 类型: cross 摘要: 最近的 Segment Anything Model (SAM) 在各种下游任务中展示了强大的实例分割性能。然而,SAM 仅在 RGB 数据上进行训练,限制了其直接应用于 RGB-热(RGB-T)语义分割的能力。鉴于 RGB-T 在恶劣天气和光照条件下,如低光和过曝情况下,为场景理解提供了稳健的解决方案,我们提出了一个名为 SARTM 的新型框架,该框架旨在将强大的 SAM 定制化用于 RGB-T 语义分割。我们的核心思想是释放 SAM 的潜力,并引入语义理解模块来处理 RGB-T 数据对。具体来说,该框架首先通过添加额外的 LoRA 层微调原始 SAM,目的是保留 SAM 在下游任务中的强大泛化能力和分割能力。其次,我们引入了语言信息作为训练 SARTM 的指导。为了解决多模态不一致性,我们引入了一个跨模态知识蒸馏 (CMKD) 模块,该模块有效地实现了模态适应,同时保持其泛化能力。该语义模块能够最小化模态差距,缓解语义模糊,从而有助于在任何视觉条件下结合任何模态。此外,我们通过调整 SAM 的分割头并结合一个辅助语义分割头来增强分割性能,该辅助语义分割头整合多尺度特征以实现有效的融合。我们在三个多模态 RGBT 语义分割基准测试集(MFNET、PST900 和 FMB)上进行了广泛的实验。定量和定性的结果一致表明,提出的 SARTM 在各种条件下显著优于现有最先进的方法。