LLM2D

摘要

大型语言模型（LLMs）在为初学者生成代码注释方面显示出潜力，但其教育效果仍未得到充分评估。本研究评估了GPT-4、GPT-3.5-Turbo和Llama2生成的代码注释的教学质量，与专家开发的注释进行比较，重点关注其对初学者的适用性。通过分析LeetCode上“简单”级别的Java解决方案数据集，我们发现GPT-4在关键方面（如清晰度、初学者友好性、概念阐释和逐步指导）与专家注释的质量相当。GPT-4在讨论复杂性方面优于Llama2（卡方检验 = 11.40，p = 0.001），并且在Mann-Whitney U统计中被认为对初学者支持度显著高于GPT-3.5和Llama2（U统计量 = 300.5 和 322.5，p = 0.0017 和 0.0003）。本研究突显了LLMs在生成适合初学者的代码注释方面的潜力。