LLM2D

摘要

arXiv:2505.01950v1 类型: cross 摘要: 最近的 Segment Anything Model (SAM) 在各种下游任务中展示了强大的实例分割性能。然而，SAM 仅在 RGB 数据上进行训练，限制了其直接应用于 RGB-热（RGB-T）语义分割的能力。鉴于 RGB-T 在恶劣天气和光照条件下，如低光和过曝情况下，为场景理解提供了稳健的解决方案，我们提出了一个名为 SARTM 的新型框架，该框架旨在将强大的 SAM 定制化用于 RGB-T 语义分割。我们的核心思想是释放 SAM 的潜力，并引入语义理解模块来处理 RGB-T 数据对。具体来说，该框架首先通过添加额外的 LoRA 层微调原始 SAM，目的是保留 SAM 在下游任务中的强大泛化能力和分割能力。其次，我们引入了语言信息作为训练 SARTM 的指导。为了解决多模态不一致性，我们引入了一个跨模态知识蒸馏 (CMKD) 模块，该模块有效地实现了模态适应，同时保持其泛化能力。该语义模块能够最小化模态差距，缓解语义模糊，从而有助于在任何视觉条件下结合任何模态。此外，我们通过调整 SAM 的分割头并结合一个辅助语义分割头来增强分割性能，该辅助语义分割头整合多尺度特征以实现有效的融合。我们在三个多模态 RGBT 语义分割基准测试集（MFNET、PST900 和 FMB）上进行了广泛的实验。定量和定性的结果一致表明，提出的 SARTM 在各种条件下显著优于现有最先进的方法。