LLM2D

摘要

arXiv:2504.20055v1 交叉类型：交叉摘要：教育中日益使用的复杂机器学习模型引发了对其可解释性的担忧，这反过来又激发了开发既忠实于模型内部机制又易于人类最终用户理解的可解释性技术的兴趣。在本文中，我们描述了一种通过设计即可解释的基于神经网络的行为检测模型的新方法。我们的模型是完全可解释的，这意味着我们用于解释的提取参数具有明确的解释，完全捕捉了模型对感兴趣的学习者行为所学到的知识，并可用于创建既忠实又可理解的解释。我们通过实施一系列对模型的约束来实现这一目标，这些约束既简化了其推理过程，又使其更接近人类对任务的理解。我们训练该模型以检测体系作弊行为，对其在该任务上的性能进行了评估，并将其学到的模式与人类专家识别的模式进行了比较。研究表明，该模型成功地学习了表明体系作弊行为的模式，同时提供了完全可解释的解释的证据。我们讨论了我们方法的含义，并提出了使用基于人类的方法评估可解释性的建议。