摘要
arXiv:2407.12543v2 宣告类型: 替换-交叉
摘要:虽然可解释性方法可以识别模型学到的概念,但它们忽略了构成模型抽象概念之间关系,这些关系影响了模型将新数据推广的能力。为了评估模型是否学习了与人为齐心的抽象,我们引入了抽象对齐这一方法,以比较模型行为与形式化的人类知识。抽象对齐将特定领域的知识外化为一个抽象图,即一组相关概念,跨越多个抽象层次。使用抽象图为基准,抽象对齐通过确定模型行为中由人类抽象解释的不确定性比例来衡量对齐程度。通过在整个数据集中累积抽象对齐结果,用户可以测试对齐假设,例如模型已学习的人类概念以及反复出现的分歧点。在专家评估中,抽象对齐区分了看似相似的错误,提高了现有模型质量度量的明确性,并发现了当前人类抽象概念的改进之处。