LLM2D

摘要

arXiv:2502.09018v1 交叉类型：摘要：概念瓶颈模型（CBMs）是内置可解释性和干预性的神经网络模型，它们通过高层语义概念的中间预测来解释最终的标签预测。然而，它们需要针对目标任务进行训练，以学习输入到概念和概念到标签的映射，这会引发目标数据集的收集和训练资源的需求。在本文中，我们提出了一种全零样本概念瓶颈模型（Z-CBMs），它能够在不训练神经网络的情况下预测概念和标签。Z-CBMs 利用了一个大规模的概念银行，该银行由从网络中提取的数百万词汇组成，用于描述各个领域中的任意输入。对于输入到概念的映射，我们引入了概念检索，通过概念银行上的跨模态搜索动态找到与输入相关的概念。在概念到标签的推理中，我们应用概念回归，通过稀疏线性回归从检索到的概念中选择关键概念。通过广泛的实验，我们确认我们的 Z-CBMs 可以提供解释性和可干预的概念，而无需任何额外的训练。代码将在 https://github.com/yshinya6/zcbm 获取。