摘要
arXiv:2502.13117v1 类型:交叉
摘要:大型语言模型(LLMs)的编程能力已彻底革新了自动代码生成,并开辟了自动统计分析的新途径。然而,在这些生成的代码可以广泛应用之前,需要系统地评估它们的有效性和质量。尽管LLMs的重要性日益增加,但有关由LLMs生成的统计代码的全面评估在文献中仍相对稀缺。本文评估了包括两个版本的ChatGPT和一个版本的Llama在内的LLMs在统计分析领域的SAS编程中的性能。我们的研究利用了一个涵盖多种统计主题和数据集的统计分析任务集。每个任务包括问题描述、数据集信息以及由人类验证的SAS代码。我们通过基于正确性、有效性、可读性、可执行性和输出结果准确性的人工专家评估,对LLMs生成的SAS代码的质量进行了综合评估。评分分析表明,虽然LLMs在生成语法正确的代码方面表现出有用性,但在需要深入领域理解的任务中却存在困难,可能会产生冗余或不正确的结果。本文为了解LLMs在统计编程中的能力和局限性提供了有价值的见解,并为未来辅助统计分析的AI编程系统的进展提供了指导。