摘要
arXiv:2504.20055v2 宣告类型: 替换-交叉
摘要:教育领域中复杂机器学习模型的使用越来越多,这引发了对其可解释性的担忧,进而促进了开发既忠实于模型内部运作又易于人类终端用户理解的解释技术的需求。在本文中,我们描述了一种通过设计使其具有可解释性的基于神经网络的行为检测模型的新方法。我们的模型是完全可解释的,这意味着我们提取用于解释的参数具有明确的解释意义,完全捕捉了模型关于感兴趣学习者行为的知识,并可用于创建既忠实又易于理解的解释。我们通过实施一系列简化模型推理过程并使其更接近于人类对任务的认知的概念,实现了这一点。我们训练模型以检测系统作弊行为,评估其在该任务上的性能,并将其学习模式与其人类专家识别的模式进行比较。我们的结果显示,模型成功地学会了指示系统作弊行为的模式,同时提供了完全可解释的证据。我们讨论了我们方法的含义,并提出了使用基于人类的方法评估解释性的方式。