LLM2D
AtmosSci-Bench: 评估大型语言模型在大气科学领域的 Recent Advance
AtmosSci-Bench: Evaluating the Recent Advance of Large Language Model for Atmospheric Science
作者: Chenyue Li, Wen Deng, Mengqian Lu, Binhang Yuan
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01159v1

摘要

arXiv:2502.01159v1 Announce Type: cross 摘要:大型语言模型(LLMs)的迅猛发展,特别是在其推理能力方面的进步,为解决大气科学中的复杂挑战提供了变革性的潜力。然而,有效地利用LLMs需要一个稳健且全面的评估基准。为应对这一需求,我们提出了AtmosSci-Bench,这是一种新型基准,旨在系统地评估LLMs在大气科学五大核心问题类别上的表现:水文、大气动力学、大气物理、地球物理学和物理海洋学。我们采用基于模板的问题生成框架,能够实现可扩展且多样的选择题库,这些题目是从研究生水平的大气科学问题中精心编排而成的。我们对代表性LLMs进行了全面评估,将其分为四组:指令微调模型、高级推理模型、数学增强模型和领域特定气候模型。我们的分析提供了一些关于LLMs在大气科学中的推理和解决问题能力的一些有趣洞察。我们认为,AtmosSci-Bench可以作为推进LLMs在气候服务中的应用的关键一步,通过提供一个标准和严格的评估框架。我们的源代码目前可以在https://github.com/Relaxed-System-Lab/AtmosSci-Bench获得。