LLM2D
TerraMind:地球观测的大规模生成多模态模型
TerraMind: Large-Scale Generative Multimodality for Earth Observation
作者: Johannes Jakubik, Felix Yang, Benedikt Blumenstiel, Erik Scheurer, Rocco Sedona, Stefano Maurogiovanni, Jente Bosmans, Nikolaos Dionelis, Valerio Marsocci, Niklas Kopp, Rahul Ramachandran, Paolo Fraccaro, Thomas Brunschwiler, Gabriele Cavallaro, Juan Bernabe-Moreno, Nicolas Long\'ep\'e
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.11171v1

摘要

arXiv:2504.11171v1 宣告类型: cross 摘要: 我们引入了TerraMind,这是首个用于地球观测(EO)的任意到任意生成的多模态基础模型。与其它多模态模型不同,TerraMind 在不同模态的令牌级和像素级数据的双重尺度表示上进行了预训练。在令牌级上,TerraMind 编码高层上下文信息以学习跨模态关系,而在像素级上,TerraMind 利用精细粒度的表示来捕捉关键的空间细微差别。我们在全球大规模数据集的九种地理空间模态上对TerraMind 进行了预训练。在这篇论文中,我们证明了:(i) TerraMind 双尺度早期融合方法解锁了地球观测领域的零样本和少样本应用;(ii) TerraMind 引入了“模态内思考”(TiM)——在微调和推理期间生成额外的合成数据以改善模型输出的能力;(iii) TerraMind 在地球观测领域(如PANGAEA)的社区标准基准测试中取得了超越现有先进水平的性能。该预训练数据集、模型权重以及我们的代码均在宽松的许可下开源。