摘要
arXiv:2503.23989v1 宣布类型: 交叉
摘要:自 GPT-3 和 ChatGPT 的发布造成大型语言模型(LLM)技术的中断以来,LLM 在编程相关任务中展现了显著的潜力。尽管代码生成仍然是一个热门的研究领域,但使用 LLM 进行代码评估仍然没有一个明确的解决方案。在本文中,我们专注于基于 LLM 的代码评估,并试图填补现有的空白。我们提出了多智能体的全新方法,使用针对问题陈述的特定问题评分表,认为这些方法在逻辑评估方面优于现有使用通用问题评分表的方法。为了解决缺乏合适的评估数据集的问题,我们引入了两个数据集:一个包含来自热门数据结构和算法实践网站的 150 份学生提交的数据结构和算法数据集,以及一个对象导向编程数据集,该数据集包含来自本科计算机科学课程的 80 份学生提交。除了使用标准的评估指标(Spearman 相关系数,科恩 Kappa),我们还提出了一种新的指标称为宽容度(Leniency),该指标量化了评估标准相对于专家评估的严格程度。我们全面的分析表明,特定问题的评分表在教育环境中显著增强了代码的逻辑评估,提供了更符合教学目标的反馈,而不仅仅是语法正确性。