摘要
为了减少训练过程中的内存消耗,人们提出了各种可逆深度神经网络 (DNN) 模型。然而,几乎所有现有的可逆 DNN 要么需要特殊的非标准架构,要么需要对现有 DNN 架构进行相当大的修改才能实现可逆性。在这项工作中,我们提出了 BDIA-transformer,这是一种精确的位级可逆 Transformer,它使用不变的标准架构进行推理。基本思想是首先将每个 Transformer 块视为求解常微分方程 (ODE) 的欧拉积分近似,然后将双向积分近似 (BDIA) 技术融入神经架构,并结合激活量化,使其精确地实现位级可逆。在训练过程中,我们让 BDIA-transformer 中的一个超参数 $\gamma$ 在每个训练样本的每个 Transformer 块中随机取两个值 $\{0.5, -0.5\}$ 之一,以对每两个连续的积分近似值进行平均。因此,BDIA-transformer 可以被视为训练一个由一组二元随机变量参数化的 ODE 求解器集合,这会对模型进行正则化,并导致验证精度提高。每个 Transformer 块的轻量级侧信息需要在正向过程中存储,以解决二元量化损失,实现精确的位级可逆性。在推理过程中,期望 $\mathbb{E}(\gamma)=0$ 被用来使 BDIA-transformer 的最终架构与 Transformer 相同,直到激活量化。我们在图像分类和语言翻译中的实验表明,BDIA-transformer 在验证性能方面明显优于其传统的对应物,同时所需的训练内存也大大减少。