LLM2D

摘要

arXiv:2504.15093v1 交叉类型: cross 摘要：从数字痕迹中检测合作和解决问题行为，以解释学生的问题解决（CPS）能力，是人工智能在教育领域的长期目标。虽然多模态数据和高级模型被认为具有检测复杂CPS行为的潜力，但它们的价值的相关实证证据仍然有限，且存在一些矛盾的证据。在本研究中，我们调查了多模态数据在提高模型性能方面的作用，以诊断78名中学生的CPS亚技能和指标，应用场景为真实教育环境。特别是，我们使用了来自口头数据的文本嵌入和来自音频数据的声音嵌入，在一个多模态分类模型中进行CPS诊断。仅模态和多模态Transformer模型在检测CPS类别方面均优于传统模型。虽然引入多模态并未提高传统单模态模型的性能，但其整合到Transformer模型中，在诊断社会认知CPS类别方面表现出优于单模态Transformer模型的性能。根据研究结果，本文认为，在自动化检测每一个CPS亚技能和指标的最佳性能方面，多模态和选择特定建模技术不应被视作理所当然。相反，它们的价值仅限于某些类型的CPS指标，受到标签复杂性的影响，并取决于数据集中指标的组成。我们总结了关于考虑LLM和多模态在自动化CPS诊断中的价值所需的细微差别，强调了人机互补的必要性，并提出了探索相关模型架构和技术的建议，以改善真实教育环境中CPS诊断。