摘要
arXiv:2501.19047v3 宣布类型: replace-cross
摘要:为了被认为是可靠的,一个模型必须经过校准,使它在每个决策上的置信度密切反映其真实结果。在这篇博客中,我们将探讨最常用的校准定义,然后详细探讨一个常用的模型校准评估指标。接着,我们将讨论这一指标的一些缺点,这些缺点揭示了需要更多校准概念的需求,这些概念要求新的评估指标。本文的目的是不进行全面的校准研究,也不专注于如何校准模型。相反,本文旨在提供不同概念及其评估指标的温和介绍,并重新强调一个仍然广泛用于评估校准的指标所存在的问题。