LLM2D

摘要

随着深度学习模型的广泛部署，它们以各种方式影响着周围环境。由此产生的分布偏移会导致部署模型的性能意外下降。现有的预测性能方法通常将有关部署模型的信息纳入特征向量中，以预测未来的结果。虽然这种方法具有吸引人的理论特性，但修改预测任务的输入维度往往不切实际。为了解决这个问题，我们提出了一种新颖的技术，以模块化方式调整预训练的主干网络，从而实现更好的样本效率并能够重复使用现有的深度学习资产。重点关注性能标签偏移，关键思想是训练一个浅层适配器模块，以便在给定要部署模型的充分统计量的情况下，对主干网络的 logits 执行贝叶斯最优标签偏移校正。因此，我们的框架将输入特定特征嵌入的构建与控制性能的机制分离。受动态基准测试用例的启发，我们在对抗性采样下评估了我们的方法，用于视觉和语言任务。我们展示了它如何在再训练轨迹中导致更小的损失，并使我们能够有效地从候选模型中进行选择，以预测性能下降。更广泛地说，我们的工作为解决深度学习中的性能问题提供了第一个基线。