LLM2D

摘要

arXiv:2505.08845v1 类型: cross 摘要:基于深度学习的宫颈癌分类有可能增加低资源地区筛查的可访问性。然而，深度学习模型往往过于自信，不能可靠地反映诊断不确定性。此外，它们通常优化为生成最大似然预测，这无法传达结果中的不确定性或模糊性。这些问题可以通过使用校准预测来解决，校准预测是一种通用框架，用于为训练好的深度学习模型生成包含可能类别的预测集。这些预测集的大小指示了模型的不确定性，随着模型信心增加而收缩。然而，现有的校准预测评估主要集中在预测集是否包含或覆盖真实类别上，经常忽视多余类别的存在。我们认为预测集应该是真实的且对最终用户有价值，确保列出的可能类别与人类预期一致，而不是过于宽松，包括虚假正例或不太可能的类别。在本次研究中，我们使用来自多名标注者的专家标注集全面验证了校准预测集。我们评估了三种应用于三种训练好的用于宫颈不典型分类的深度学习模型的校准预测方法。我们的基于专家标注的分析表明，传统的覆盖率评估高估了性能，当前的校准预测方法通常生成的预测集与人类标签不匹配。此外，我们还探索了校准预测方法在识别模糊和分布外数据方面的能力。