LLM2D
评估大型语言模型为初学者程序员生成的代码注释质量
Evaluating the Quality of Code Comments Generated by Large Language Models for Novice Programmers
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14368v1

摘要

大型语言模型(LLMs)在为初学者生成代码注释方面显示出潜力,但其教育效果仍未得到充分评估。本研究评估了GPT-4、GPT-3.5-Turbo和Llama2生成的代码注释的教学质量,与专家开发的注释进行比较,重点关注其对初学者的适用性。通过分析LeetCode上“简单”级别的Java解决方案数据集,我们发现GPT-4在关键方面(如清晰度、初学者友好性、概念阐释和逐步指导)与专家注释的质量相当。GPT-4在讨论复杂性方面优于Llama2(卡方检验 = 11.40,p = 0.001),并且在Mann-Whitney U统计中被认为对初学者支持度显著高于GPT-3.5和Llama2(U统计量 = 300.5 和 322.5,p = 0.0017 和 0.0003)。本研究突显了LLMs在生成适合初学者的代码注释方面的潜力。