LLM2D

摘要

为了减少训练过程中的内存消耗，人们提出了各种可逆深度神经网络 (DNN) 模型。然而，几乎所有现有的可逆 DNN 要么需要特殊的非标准架构，要么需要对现有 DNN 架构进行相当大的修改才能实现可逆性。在这项工作中，我们提出了 BDIA-transformer，这是一种精确的位级可逆 Transformer，它使用不变的标准架构进行推理。基本思想是首先将每个 Transformer 块视为求解常微分方程 (ODE) 的欧拉积分近似，然后将双向积分近似 (BDIA) 技术融入神经架构，并结合激活量化，使其精确地实现位级可逆。在训练过程中，我们让 BDIA-transformer 中的一个超参数 $\gamma$ 在每个训练样本的每个 Transformer 块中随机取两个值 $\{0.5, -0.5\}$ 之一，以对每两个连续的积分近似值进行平均。因此，BDIA-transformer 可以被视为训练一个由一组二元随机变量参数化的 ODE 求解器集合，这会对模型进行正则化，并导致验证精度提高。每个 Transformer 块的轻量级侧信息需要在正向过程中存储，以解决二元量化损失，实现精确的位级可逆性。在推理过程中，期望 $\mathbb{E}(\gamma)=0$ 被用来使 BDIA-transformer 的最终架构与 Transformer 相同，直到激活量化。我们在图像分类和语言翻译中的实验表明，BDIA-transformer 在验证性能方面明显优于其传统的对应物，同时所需的训练内存也大大减少。