LLM2D
基于深度学习的天气预报系统设计空间探索
Exploring the design space of deep-learning-based weather forecasting systems
作者: Shoaib Ahmed Siddiqui, Jean Kossaifi, Boris Bonev, Christopher Choy, Jan Kautz, David Krueger, Kamyar Azizzadenesheli
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07472v1

摘要

尽管基于深度学习的**天气预报系统**取得了巨大进展,但其设计空间,包括不同设计选择的影响,尚未得到充分理解。本文旨在通过系统地分析这些选择来填补这一知识空白,这些选择包括**架构**、**问题表述**、**预训练方案**、**基于图像的预训练模型的使用**、**损失函数**、**噪声注入**、**多步输入**、**附加静态掩码**、**多步微调(包括更大步幅模型)**,以及**在更大数据集上训练**。我们研究了**固定网格架构**,例如 UNet、全卷积架构和基于 Transformer 的模型,以及**网格不变架构**,包括基于图的模型和基于算子的模型。我们的结果表明,**固定网格架构**优于**网格不变架构**,表明需要进一步开发**网格不变模型**(如神经算子)的架构。因此,我们提出了一种**混合系统**,将**固定网格模型**的强大性能与**网格不变架构**的灵活性相结合。我们进一步表明,**多步微调**对于大多数深度学习模型在实践中良好运行至关重要,这在过去一直是一种常见的做法。**预训练目标**与监督训练相比降低了性能,而**基于图像的预训练模型**在某些情况下与从头开始训练模型相比提供了有用的归纳偏差。有趣的是,我们发现,与在较小的数据集上训练更长时间相比,在训练较小的模型时使用更大的数据集具有很强的积极作用。另一方面,较大的模型主要受益于计算预算的增加。我们相信这些结果将有助于未来设计更好的**天气预报系统**。