LLM2D

摘要

神经网络主要根据其输入和输出进行训练，而忽略其内部机制。这些被忽视的机制决定了对安全至关重要的属性，例如：（i）透明度；（ii）不存在敏感信息或有害功能；以及（iii）目标在训练分布之外的可靠泛化。为了解决这一缺陷，我们引入了梯度路由，这是一种将功能隔离到神经网络特定子区域的训练方法。梯度路由在反向传播期间对梯度应用数据相关的加权掩码。这些掩码由用户提供，以配置哪些参数由哪些数据点更新。我们表明，梯度路由可用于（1）学习以可解释的方式进行划分表示；（2）通过消除预先指定网络子区域来实现鲁棒的遗忘；以及（3）通过定位负责不同行为的模块来实现强化学习者的可扩展监督。在整个过程中，我们发现即使应用于有限的、临时的部分数据，梯度路由也能定位功能。我们得出结论，该方法有望用于数据稀缺的具有挑战性的现实世界应用中。