LLM2D

摘要

经过训练的模型通常会与后处理转换相结合，例如温度缩放 (TS)、集成和随机权重平均 (SWA)，以提高性能、鲁棒性、不确定性估计等。然而，这些转换通常只在基础模型通过标准方法最终确定后才应用。在本文中，我们通过广泛的实证研究对这种做法提出了质疑。特别是，我们展示了一种我们称之为后处理逆转的现象，其中性能趋势在应用后处理转换后发生了逆转。这种现象在高噪声环境中尤为突出。例如，虽然基础模型在训练初期严重过拟合，但集成和 SWA 都会偏向训练了更多轮次的模型。后处理逆转还可以防止双下降现象的出现，并减轻基础模型中测试损失和测试误差之间的不匹配。初步分析表明，这些转换通过抑制错误标记示例的影响，利用它们与干净示例的学习动态差异，来诱导逆转。根据我们的发现，我们提出了后处理选择，这是一种简单技术，通过后处理指标来指导模型开发决策，例如提前停止、检查点和更广泛的超参数选择。我们的实验涵盖了真实世界的视觉、语言、表格和图数据集。在 LLM 指令微调数据集上，与朴素选择相比，后处理选择导致 MMLU 提升了 >1.5 倍。