LLM2D

摘要

arXiv:2504.20197v1 宣告类型：交叉摘要：将深度神经网络学习到的表示分解为可解释的特征，可以大大增强其安全性和可靠性。为了更好地理解这些特征，我们采用几何视角，将它们视为一种用于映射嵌入数据分布的学习坐标系。我们以随机晶格为通用数据分布模型，并使用渗流理论分析其性质。学习到的特征被分类为上下文特征、组件特征和表面特征。该模型在近期的机制可解释性研究成果中具有定性一致性，并为未来的研究指明了方向。