LLM2D

摘要

arXiv:2504.11171v1 宣告类型: cross 摘要: 我们引入了TerraMind，这是首个用于地球观测（EO）的任意到任意生成的多模态基础模型。与其它多模态模型不同，TerraMind 在不同模态的令牌级和像素级数据的双重尺度表示上进行了预训练。在令牌级上，TerraMind 编码高层上下文信息以学习跨模态关系，而在像素级上，TerraMind 利用精细粒度的表示来捕捉关键的空间细微差别。我们在全球大规模数据集的九种地理空间模态上对TerraMind 进行了预训练。在这篇论文中，我们证明了：(i) TerraMind 双尺度早期融合方法解锁了地球观测领域的零样本和少样本应用；(ii) TerraMind 引入了“模态内思考”（TiM）——在微调和推理期间生成额外的合成数据以改善模型输出的能力；(iii) TerraMind 在地球观测领域（如PANGAEA）的社区标准基准测试中取得了超越现有先进水平的性能。该预训练数据集、模型权重以及我们的代码均在宽松的许可下开源。