摘要
arXiv:2403.15426v2 类型: replace-cross
摘要: 在本文中,我们介绍了一个名为CodingTeachLLM的大语言模型(LLM),专门用于编程教学。我们旨在增强LLM的编程能力,并引导其在教育场景中采用更好的教学模式。因此,我们提出了一种端到端基于先验的三阶段监督微调模型,该模型证明比传统的微调方法更具竞争力。具体来说,我们的模型实现了教育知识的结构分解和增量指导输出。为此,我们通过一个采样器和重叠估计神经网络增强了三类数据的分类,并将预处理的数据集分三批注入预训练模型进行LORA微调。然后,我们设计了一个先验模块,结合系统提示、向量数据库和抽象语法树任务分割。最后,我们应用了先验基于的微调模型的压缩方法和正则化约束,并在输出端应用文本过滤器,以获得增量指导结果。我们的模型是第一个真正体现具备丰富教育知识、逐步增量指导输出和不透露答案的辅导员角色的研究努力。大规模实验表明,与开源模型相比,我们的模型在编程能力方面也达到了最先进的水平,在HumanEval(@pass 1)基准测试中的得分达到了令人印象深刻的75.10%。此外,我们的模型保持了强大的对话能力,13B量化版本分别在MMLU、C-Eval和AGIEval(5射)对话评估基准测试中得分56.34、50.60和45.27。