LLM2D

摘要

在线教育平台通过提供动态的数字基础设施，显著改变了教育资源的传播方式。随着这种转变的进一步加强，大型语言模型 (LLMs) 的出现提升了这些平台的智能水平。然而，当前的学术基准对现实世界行业场景的指导意义有限。这种局限性源于教育应用需要的不止是简单的测试题答案。为了弥合这一差距，我们引入了 CJEval，一个基于中国初中考试评估的基准。CJEval 包含 26,136 个样本，涵盖十个学科的四个应用级教育任务。这些样本不仅包括问题和答案，还包括详细的标注，例如问题类型、难度级别、知识概念和答案解释。通过利用这个基准，我们评估了 LLMs 的潜在应用，并通过在各种教育任务上进行微调，对它们的性能进行了全面分析。大量的实验和讨论突出了将 LLMs 应用于教育领域的机遇和挑战。