LLM2D
理解模型校准——一个温和的介绍和校准及其预期校准误差(ECE)的可视化探索
Understanding Model Calibration -- A gentle introduction and visual exploration of calibration and the expected calibration error (ECE)
作者: Maja Pavlovic
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2501.19047v4

摘要

arXiv:2501.19047v4 宣告类型: replace-cross 摘要:为了被认为是可靠的,一个模型必须进行校准,使其对每个决策的信心紧密反映其真实结果。在这篇博客中,我们将探讨最常用的校准定义,然后深入了解一种常用的模型校准评估指标。随后,我们将讨论这种指标的一些缺点,这些缺点揭示了需要其他校准概念的必要性,而这些概念需要新的评估指标。本文并不旨在对所有关于校准的作品进行深入剖析,也不专注于如何校准模型。相反,本文旨在提供不同类型及其评估指标的温和介绍,并重新强调一种仍然广泛用于评估校准的指标的一些问题。