LLM2D

摘要

尽管基于深度学习的**天气预报系统**取得了巨大进展，但其设计空间，包括不同设计选择的影响，尚未得到充分理解。本文旨在通过系统地分析这些选择来填补这一知识空白，这些选择包括**架构**、**问题表述**、**预训练方案**、**基于图像的预训练模型的使用**、**损失函数**、**噪声注入**、**多步输入**、**附加静态掩码**、**多步微调（包括更大步幅模型）**，以及**在更大数据集上训练**。我们研究了**固定网格架构**，例如 UNet、全卷积架构和基于 Transformer 的模型，以及**网格不变架构**，包括基于图的模型和基于算子的模型。我们的结果表明，**固定网格架构**优于**网格不变架构**，表明需要进一步开发**网格不变模型**（如神经算子）的架构。因此，我们提出了一种**混合系统**，将**固定网格模型**的强大性能与**网格不变架构**的灵活性相结合。我们进一步表明，**多步微调**对于大多数深度学习模型在实践中良好运行至关重要，这在过去一直是一种常见的做法。**预训练目标**与监督训练相比降低了性能，而**基于图像的预训练模型**在某些情况下与从头开始训练模型相比提供了有用的归纳偏差。有趣的是，我们发现，与在较小的数据集上训练更长时间相比，在训练较小的模型时使用更大的数据集具有很强的积极作用。另一方面，较大的模型主要受益于计算预算的增加。我们相信这些结果将有助于未来设计更好的**天气预报系统**。