LLM2D

摘要

arXiv:2504.14154v1 宣告类型: cross 摘要：随着大型语言模型在实际应用中的日益普及，任务特定的指标保证对于其可靠部署至关重要。先前的研究引入了各种基于分割同置信预测的共识不确定性标准，这些标准提供了用户指定的正确性覆盖范围。然而，现有的框架经常无法识别违反可交换性假设的不确定性数据异常值，导致未定义的覆盖率误差率和不可操作的预测集。在本文中，我们提出了一种新颖的方法，称为选择性共识不确定性（SConU），这是首次通过开发两个关键的共识 p 值来实施显着性检验，用以确定给定样本是否在特定可管理的风险水平下偏离校准集的不确定性分布。我们的方法不仅有助于在单域和跨学科的背景下严谨地管理覆盖率误差率，还提高了预测的效率。此外，我们全面分析了共识程序的各个组成部分，以逼近条件覆盖，特别是在高风险问答任务中。