摘要
arXiv:2504.14928v1 信息发布类型: 新文章
摘要: 大型语言模型(LLMs)越来越多地作为教育工具使用,但由于教师-学生互动的资源密集型、场景依赖性和方法上的复杂性,评估其教学能力仍然具有挑战性。我们引入了EducationQ,这是一种多代理对话框架,通过模拟动态教育场景高效地评估教学能力,其中包括专门的教育、学习和评估代理。对全球主要AI组织(OpenAI、Meta、Google、Anthropic及其他)的14个LLM在1,498个问题上的测试涵盖了13个学科和10种难度级别,结果显示,教学效果并不线性地与模型规模或一般推理能力相关联——在某些情况下,一些小规模的开源模型在教学情境中的表现甚至超过了大规模的商业竞争对手。这一发现揭示了当前评估中一个关键的差距,即更重视知识回忆而非互动教学。我们的混合方法评估结合了量化指标、质性分析和专家案例研究,识别出顶级模型在教学方面独有的教学优势(例如,复杂的问题策略和适应性反馈机制)。人类专家评估显示有78%的意见与我们对有效教学行为的自动质性分析一致,验证了我们的方法论。EducationQ 表明,作为教师的LLMs需要超出简单放大的专门优化,这建议下一代教育AI应优先提升特定的教学有效性。