LLM2D
用于熟练可靠的中期天气预报的大型Transformer神经网络
Scaling transformer neural networks for skillful and reliable medium-range weather forecasting
作者: Tung Nguyen, Rohan Shah, Hritik Bansal, Troy Arcomano, Romit Maulik, Veerabhadra Kotamarthi, Ian Foster, Sandeep Madireddy, Aditya Grover
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2312.03876v2

摘要

天气预报是预测和减轻气候变化影响的一项基本问题。最近,基于深度学习的数据驱动的天气预报方法显示出巨大的潜力,其准确性可与业务系统相媲美。然而,这些方法通常采用复杂且定制化的架构,缺乏充分的消融分析,难以理解其成功的真正原因。在这里,我们介绍Stormer,这是一个简单的Transformer模型,它通过对标准Transformer主干进行最小的修改,在天气预报方面取得了最先进的性能。我们通过仔细的实证分析确定了Stormer的关键组成部分,包括特定于天气的嵌入、随机动力学预测和压力加权损失。Stormer的核心是一个随机预测目标,该目标训练模型以预测不同时间间隔内的天气动力学。在推理过程中,这允许我们针对目标提前期生成多个预测,并将它们组合起来以获得更好的预测精度。在WeatherBench 2上,Stormer在短期到中期预报中的表现具有竞争力,并且在7天以后的表现优于现有方法,同时所需的训练数据和计算量减少了几个数量级。此外,我们还证明了Stormer良好的扩展特性,显示出随着模型规模和训练标记的增加,预测精度持续提高。代码和检查点可在https://github.com/tung-nd/stormer获取。