摘要
经过训练的模型通常会与后处理转换相结合,例如温度缩放 (TS)、集成和随机权重平均 (SWA),以提高性能、鲁棒性、不确定性估计等。然而,这些转换通常只在基础模型通过标准方法最终确定后才应用。在本文中,我们通过广泛的实证研究对这种做法提出了质疑。特别是,我们展示了一种我们称之为后处理逆转的现象,其中性能趋势在应用后处理转换后发生了逆转。这种现象在高噪声环境中尤为突出。例如,虽然基础模型在训练初期严重过拟合,但集成和 SWA 都会偏向训练了更多轮次的模型。后处理逆转还可以防止双下降现象的出现,并减轻基础模型中测试损失和测试误差之间的不匹配。初步分析表明,这些转换通过抑制错误标记示例的影响,利用它们与干净示例的学习动态差异,来诱导逆转。根据我们的发现,我们提出了后处理选择,这是一种简单技术,通过后处理指标来指导模型开发决策,例如提前停止、检查点和更广泛的超参数选择。我们的实验涵盖了真实世界的视觉、语言、表格和图数据集。在 LLM 指令微调数据集上,与朴素选择相比,后处理选择导致 MMLU 提升了 >1.5 倍。