摘要
arXiv:2505.09438v1 交叉类型: cross
摘要: 大型语言模型(LLMs)现在已广泛应用,且已到达各个教育水平的学习者。这一发展引发了对其使用可能绕过关键学习过程并损害既定评估形式完整性的担忧。在物理教育中,由于问题解决在教学和评估中起着核心作用,因此理解LLMs在物理问题解决方面的特殊能力变得至关重要。这种理解对于制定负责任且教学合理的LLMs整合策略至关重要。因此,本研究比较了一种通用目的型LLM(GPT-4o,使用不同引导技术)和一种推理优化模型(o1-preview)与德国物理奥林匹克竞赛参与者在一组明确定义的奥林匹克问题上的问题解决表现。除了评估生成解决方案的正确性外,该研究还分析了LLM生成解决方案的特性优势和局限性。研究发现表明,两种测试的LLMs(GPT-4o和o1-preview)在奥林匹克类型的问题解决上表现出先进的能力,平均来说优于人类参与者。不同的引导技术对GPT-4o的表现影响甚微,而o1-preview几乎始终优于GPT-4o和人类基准。基于这些发现,该研究讨论了物理教育中终结性评估和形成性评估的设计含义,包括如何保持评估的完整性以及支持学生批判性地与LLMs互动。