LLM2D

摘要

arXiv:2504.18026v1 Announce Type: cross 摘要：概念瓶颈模型（CBMs）提出通过限制模型的决策在一组可理解的人类概念上，以增强AI系统的可信度。然而，CBMs通常假设数据集包含准确的概念标签，一种在实践中经常被违反的假设，我们展示了这会导致性能显著下降（在某些情况下下降了25%）。为了解决这个问题，我们引入了概念偏好优化（CPO）目标，这是一种基于直接偏好优化的新损失函数，它有效地缓解了概念误标对CBM性能的负面影响。我们对CPO目标的一些关键属性进行了分析，表明它直接优化概念的后验分布，并将其与二元交叉熵（BCE）进行了对比，展示了CPO本质上对概念噪声的敏感性较低。我们在有噪声标签和没有噪声标签的三个实际数据集上进行了实证验证，发现CPO在所有这些情况下都优于BCE。