LLM2D

摘要

arXiv:2502.01159v1 Announce Type: cross 摘要：大型语言模型（LLMs）的迅猛发展，特别是在其推理能力方面的进步，为解决大气科学中的复杂挑战提供了变革性的潜力。然而，有效地利用LLMs需要一个稳健且全面的评估基准。为应对这一需求，我们提出了AtmosSci-Bench，这是一种新型基准，旨在系统地评估LLMs在大气科学五大核心问题类别上的表现：水文、大气动力学、大气物理、地球物理学和物理海洋学。我们采用基于模板的问题生成框架，能够实现可扩展且多样的选择题库，这些题目是从研究生水平的大气科学问题中精心编排而成的。我们对代表性LLMs进行了全面评估，将其分为四组：指令微调模型、高级推理模型、数学增强模型和领域特定气候模型。我们的分析提供了一些关于LLMs在大气科学中的推理和解决问题能力的一些有趣洞察。我们认为，AtmosSci-Bench可以作为推进LLMs在气候服务中的应用的关键一步，通过提供一个标准和严格的评估框架。我们的源代码目前可以在https://github.com/Relaxed-System-Lab/AtmosSci-Bench获得。