LLM2D

摘要

arXiv:2505.07902v1 交叉公告类型摘要：课堂教学是教学与学习进行的关键载体。评估不同话语实践的特征，并将其与学生的学习成就联系起来，可以增强对教学质量的理解。传统的评估方法依赖于对课堂观察协议的手动编码，这既耗时又昂贵。尽管许多研究利用AI技术在句级上分析课堂话语，但对整个课堂段落中话语实践的评估仍然缺乏研究。为了弥补这一空白，我们的研究提出了一种基于文本的多模态融合架构，用于评估基于全球教学洞察（GTI）观察协议的地三话语组成部分的质量：话语的性质、提问和解释。首先，我们使用注意力机制来捕获来自转录、音频和视频流的跨模态和同一模态的互作。其次，采用多任务学习方法共同预测这三个组成部分的质量得分。第三，我们将任务形式化为序数分类问题，以考虑评分等级的顺序。通过在包含92节录音数学课的GTI德国数据集上进行的消融研究，展示了这些设计元素的有效性。我们的结果显示，文本模态在接近这一任务时起到了主导作用。结合声学特征增强了模型与人类评分的一致性，整体二次加权κ值得分为0.384，与人类评分者间可靠性（0.326）相当。我们的研究为未来开发自动话语质量评估提供了基础，以支持通过及时反馈多维度话语实践为教师专业发展提供支持。