LLM2D
理解模型校准——一个温和的介绍以及校准和预期校准误差(ECE)的可视化探索
Understanding Model Calibration -- A gentle introduction and visual exploration of calibration and the expected calibration error (ECE)
作者: Maja Pavlovic
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2501.19047v3

摘要

arXiv:2501.19047v3 宣布类型: replace-cross 摘要:为了被认为是可靠的,一个模型必须经过校准,使它在每个决策上的置信度密切反映其真实结果。在这篇博客中,我们将探讨最常用的校准定义,然后详细探讨一个常用的模型校准评估指标。接着,我们将讨论这一指标的一些缺点,这些缺点揭示了需要更多校准概念的需求,这些概念要求新的评估指标。本文的目的是不进行全面的校准研究,也不专注于如何校准模型。相反,本文旨在提供不同概念及其评估指标的温和介绍,并重新强调一个仍然广泛用于评估校准的指标所存在的问题。