LLM2D

摘要

近年来机器学习的进步导致神经网络在各种任务中的应用激增，但缺乏可解释性仍然是许多其他任务中存在的问题，在这些任务中，需要理解影响预测的特征以确保公平性、安全性以及法律合规性。本文考虑了这类任务中的一种，即表格数据集分类，并提出了一种新颖的神经符号架构，即神经推理网络 (NRN)，它可扩展且能够为其预测生成逻辑上合理的文本解释。NRN 是逻辑神经元的连接层，这些神经元实现了一种实值逻辑形式。训练算法 (R-NRN) 使用带有反向传播的梯度下降优化来学习网络的权重，但它也使用基于 bandit 的优化来学习网络结构本身。两者都在 PyTorch 的扩展中实现 (https://github.com/IBM/torchlogic)，该扩展充分利用了 GPU 扩展和批处理训练。对 22 个用于表格分类的不同开源数据集进行评估表明，性能（以 ROC AUC 衡量）优于多层感知器 (MLP)，并且在统计上与其他最先进的方法（如随机森林、XGBoost 和梯度提升树）相似，同时平均提供 43% 的更快训练速度以及参数数量减少两个数量级以上。此外，R-NRN 解释比所比较的方法更短，同时生成更准确的特征重要性分数。