LLM2D

摘要

arXiv:2503.23989v1 宣布类型: 交叉摘要：自 GPT-3 和 ChatGPT 的发布造成大型语言模型（LLM）技术的中断以来，LLM 在编程相关任务中展现了显著的潜力。尽管代码生成仍然是一个热门的研究领域，但使用 LLM 进行代码评估仍然没有一个明确的解决方案。在本文中，我们专注于基于 LLM 的代码评估，并试图填补现有的空白。我们提出了多智能体的全新方法，使用针对问题陈述的特定问题评分表，认为这些方法在逻辑评估方面优于现有使用通用问题评分表的方法。为了解决缺乏合适的评估数据集的问题，我们引入了两个数据集：一个包含来自热门数据结构和算法实践网站的 150 份学生提交的数据结构和算法数据集，以及一个对象导向编程数据集，该数据集包含来自本科计算机科学课程的 80 份学生提交。除了使用标准的评估指标（Spearman 相关系数，科恩 Kappa），我们还提出了一种新的指标称为宽容度（Leniency），该指标量化了评估标准相对于专家评估的严格程度。我们全面的分析表明，特定问题的评分表在教育环境中显著增强了代码的逻辑评估，提供了更符合教学目标的反馈，而不仅仅是语法正确性。