LLM2D

摘要

arXiv:2501.19195v1 声明类型: cross 摘要：机器学习分类器通常会生成对于各种领域中的准确且可解释决策至关重要的概率预测。这些预测的质量通常通过交叉熵等适当的损失进行评估，这种损失可以分解为两个部分：校准误差评估一般性的过度自信或欠自信，而修正误差衡量区分不同类别的能力。在本文中，我们提供了理论和实验证据表明，在训练过程中这两个错误并非同时被最小化。基于验证损失选择最佳训练周期因此会导致一个在两个校准误差和，更关键的是，修正式误差上都不最优的折衷点。为了解决这一问题，我们提出了一个新的早期停止和超参数调整的度量标准，使在训练过程中最小化修正式误差成为可能。校准误差在训练后通过标准技术最小化。我们的方法可以无缝集成到任何架构中，并在多种分类任务中一致地提高性能。