摘要
神经网络主要根据其输入和输出进行训练,而忽略其内部机制。这些被忽视的机制决定了对安全至关重要的属性,例如:(i)透明度;(ii)不存在敏感信息或有害功能;以及(iii)目标在训练分布之外的可靠泛化。为了解决这一缺陷,我们引入了梯度路由,这是一种将功能隔离到神经网络特定子区域的训练方法。梯度路由在反向传播期间对梯度应用数据相关的加权掩码。这些掩码由用户提供,以配置哪些参数由哪些数据点更新。我们表明,梯度路由可用于(1)学习以可解释的方式进行划分表示;(2)通过消除预先指定网络子区域来实现鲁棒的遗忘;以及(3)通过定位负责不同行为的模块来实现强化学习者的可扩展监督。在整个过程中,我们发现即使应用于有限的、临时的部分数据,梯度路由也能定位功能。我们得出结论,该方法有望用于数据稀缺的具有挑战性的现实世界应用中。