LLM2D

摘要

arXiv:2503.24262v1 类型: cross 摘要：机器学习在高风险领域至关重要，但传统的验证方法依赖于平均指标如均方误差（MSE）或绝对误差平均值（MAE），这些指标无法量化极端错误。最坏情况下的预测失败可能产生重大后果，但当前框架缺乏评估其概率的统计基础。在此研究中，提出了一个新的统计框架，基于极值理论（EVT），提供了一种严谨的方法来估算最坏情况下的失败。通过对合成和真实世界数据集的应用，该方法展示了其能够稳健地估计灾难性失败的概率，克服了标准交叉验证的基本限制。本文确立了EVT为评估模型可靠性的基本工具，在不确定量化对决策或科学分析至关重要的新兴技术中确保更安全的AI部署。