LLM2D

摘要

arXiv:2504.08958v1 宣告类型: cross 摘要: 为了完成一个开放式的编程练习，学生们不仅需要规划高层次的解决方案，还需要使用适当的语法实现它。然而，这些问题通常通过测验案例来评估最终提交的正确性，学生无法获得其规划过程的反馈。大型语言模型（LLM）可能能够通过检测代码的整体结构（即使代码存在语法错误）来生成这种反馈。为此，我们提出了一种方法，使用LLM来检测学生程序中存在的高层次目标和模式（即编程计划）。我们展示了完整的大规模预训练模型GPT-4o及其小变体（GPT-4o-mini）都能以惊人的准确性检测这些计划，超过了基于传统代码分析方法的基线模型。我们进一步展示了，经过微调后，较小、成本效益更高的变体（GPT-4o-mini）能达到目前最先进的结果（GPT-4o），为更小模型在实时评分中的应用创造了前景。这些较小的模型可以集成到开放式的代码编写练习的自动评分系统中，即使程序存在语法错误，也可以为学生的隐式规划技能提供反馈。此外，大型语言模型可能在其他领域的问题中也很有用，在这些领域中，学生从一组高层次的解决方案步骤开始，逐步计算输出，例如数学和物理问题。