LLM2D

摘要

arXiv:2502.14572v1 宣告类型: cross 摘要: 可理解的神经网络解释是更好地理解决策的基础，尤其是在输入数据包含恶意扰动的情况下。现有解决方案通常通过对抗训练来减轻扰动的影响，但在未知扰动下无法生成可理解的解释。为了解决这一挑战，我们提出了一种名为AGAIN的基于因子图的可解释神经网络，它能够在未知扰动下生成可理解的解释。与先前的解决方案不同，所提出的AGAIN直接整合逻辑规则，在推断过程中识别并纠正解释中的逻辑错误。具体而言，我们构建因子图以表达解释与类别之间的逻辑规则。通过将逻辑规则视为外生知识，AGAIN能够识别违反现实世界逻辑的不可理解的解释。此外，我们提出了一个交互式干预开关策略，在因子图的逻辑指导下纠正解释，从而克服了基于对抗训练方法的固有限制，只防御已知扰动。此外，我们通过理论证明了使用因子图的有效性，证明了解释的可理解性与因子图之间有很强的相关性。在三个数据集上进行了广泛的实验，实验结果表明 AGAIN 在与最先进的基线相比时表现出更优的性能。