LLM2D

摘要

arXiv:2501.19047v4 宣告类型: replace-cross 摘要：为了被认为是可靠的，一个模型必须进行校准，使其对每个决策的信心紧密反映其真实结果。在这篇博客中，我们将探讨最常用的校准定义，然后深入了解一种常用的模型校准评估指标。随后，我们将讨论这种指标的一些缺点，这些缺点揭示了需要其他校准概念的必要性，而这些概念需要新的评估指标。本文并不旨在对所有关于校准的作品进行深入剖析，也不专注于如何校准模型。相反，本文旨在提供不同类型及其评估指标的温和介绍，并重新强调一种仍然广泛用于评估校准的指标的一些问题。