LLM2D

摘要

arXiv:2502.11245v1 类型: cross 摘要: 基于概念的模型是能够学习一个概念提取器将输入映射到高层概念，并通过推理层将这些高层概念转化为预测结果的神经网络。确保这些模块生成可解释的概念并在分布外情况下行得通仍然是至关重要的，但实现这些目标的具体条件尚不明确。我们通过建立基于概念的模型与推理捷径（RSs）之间的新型联系，研究了这一问题。推理捷径是一种常见的情况，即模型通过学习低质量的概念获得高准确性，即使推理层是固定的并且提前提供的。具体而言，我们首先将RSs拓展到基于概念的模型这种更复杂的环境中，然后推导出识别概念和推理层的理论条件。我们的实验证据突显了推理捷径的影响，并表明现有方法，在即使结合多种自然缓解策略的情况下，也往往无法在实际中满足这些条件。