LLM2D

摘要

arXiv:2504.17921v1 宣告类型: cross 摘要: 在本文中，我们探讨了基于概念的模型(CMs)对离分布(OOD)输入的响应方式。CMs 是可解释的神经架构，首先预测一组高层概念（例如，条纹、黑色），然后从这些概念中预测任务标签。特别地，我们在输入为 OOD 时研究了概念干预（即人工专家在测试时纠正 CM 错误预测的概念的操作）对 CMs 任务预测的影响。我们的分析揭示了当前最先进的 CMs 的一个弱点，我们将其称为泄漏污染，这阻碍了它们在进行概念干预以应对 OOD 输入时提高其准确性。为了解决这个问题，我们引入了 MixCEM，这是一种新的 CM，能够在仅当此类信息为分布内时学习动态利用其概念中缺失的泄漏信息。我们的结果显示，在具有完整概念注释集和不具有完整概念注释集的任务中，MixCEMs 在概念干预存在和不存在的情况下均显著提高了其在分布内和 OOD 样本上的准确性，从而在强基线模型上表现出色。