LLM2D
理解模型校准——温和的介绍及校准的可视化探索与期望校准误差(ECE)分析
Understanding Model Calibration -- A gentle introduction and visual exploration of calibration and the expected calibration error (ECE)
作者: Maja Pavlovic
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.19047v2

摘要

arXiv:2501.19047v2 宣告类型: cross 摘要: 为了被认为是可靠的模型,它必须被校准,使得其在每个决策上的信心水平密切反映其真实结果。在这篇博文中,我们将首先探讨最常用的投资准定义,然后深入探讨一个常用的模型校准评估指标。接着,我们将覆盖这个指标的一些缺点,这些缺点揭示了需要其他新的校准概念的需求,这些概念需要自己的新评估指标。本文无意对所有校准工作进行深入剖析,也不专注于如何校准模型。相反,它旨在提供不同概念及其评估指标的温和介绍,并重新强调一种仍在广泛使用的评估校准的指标所存在的一些问题。