LLM2D

摘要

可预测地调整网络深度可以有效地控制推理延迟，满足各种设备的资源条件。然而，以往的自适应深度网络并没有提供关于为什么以及哪些层可以被跳过的通用原则和正式解释，因此，它们的方法难以推广，需要漫长而复杂的训练步骤。本文提出了一种实用的自适应深度网络方法，该方法适用于各种网络，训练工作量最小。在我们的方法中，每个层次化的残差阶段被划分为两个子路径，它们通过简单的自蒸馏策略被训练以获得不同的属性。虽然第一个子路径对于层次化特征学习至关重要，但第二个子路径被训练以细化学习到的特征，并在跳过该子路径时最小化性能下降。与之前的自适应网络不同，我们的方法不会以迭代的方式训练每个目标子网络。然而，在测试时，我们可以以组合的方式连接这些子路径，从单个网络中选择具有不同准确率-效率权衡的子网络。我们提供了关于为什么提出的训练方法可以减少整体预测误差，同时最小化跳过子路径的影响的正式理由。我们用卷积神经网络和 Transformer 演示了我们方法的通用性和有效性。