LLM2D

摘要

arXiv:2504.19223v1 交叉公告类型：cross 摘要：光谱成像在医学和城市场景理解等多个领域提供了有前途的应用，并且已经在遥感领域被确立为关键的成像模态。然而，不同光谱相机在通道维度和捕获的波长方面存在变化，阻碍了AI驱动方法的发展，导致了特定于摄像头的模型，这些模型的通用性有限，且在跨摄像头应用方面不够充分。为了解决这一瓶颈，我们引入了**CARL**，一种适用于RGB、多光谱和高光谱成像模态的**C**amera-**A**gnostic **R**epresentation **L**earning模型。为了将任何通道维度的光谱图像转换为摄像头无关的嵌入，我们引入了波长位置编码和自注意力-交叉注意力机制，以压缩光谱信息并将其转换为学习到的查询表示。我们通过一种为CARL量身定制的基于JEPA的新颖光谱自监督策略实现了光谱-空间预训练。来自医学成像、自动驾驶和卫星成像领域的大型实验展示了我们模型对光谱异质性的独特鲁棒性，在模拟和真实世界的跨摄像头光谱变异性数据集上的表现优于其他模型。所提出方法的可扩展性和灵活性使我们的模型成为未来光谱基础模型的骨干。