LLM2D

摘要

arXiv:2504.04243v2 宣告类型: replace-cross 摘要：设计用于辅助人类决策的AI系统通常需要标签示例来训练和评估监督模型。然而，这些标签往往未知，用于估计这些标签的不同方法可能会涉及无法验证的假设或任意的选择。在本文中，我们引入了标签不确定性的概念，并推导出其在高风险AI辅助决策中的重要影响。我们在一个医疗保健背景下进行了一项实证研究，特别关注心脏骤停后复苏的昏迷患者恢复情况的预测。我们的研究显示，即使在对有已知标签的患者进行评估时，标签不确定性的存在可能导致模型表现相似，但在标签未知的患者上预测结果却有很大差异。在说明标签不确定性在此关键背景下的关键伦理影响后，我们讨论了评估、报告和设计方面的要旨。