摘要
arXiv:2502.01803v1 类别: cross
摘要:理解神经网络因其高维度和相互作用的组件而具有挑战性。受人类认知的启发,人类通过将复杂的感觉数据打包成重复的实体来进行处理,我们提出利用这一原则来解释人工神经群体活动。生物智能和人工智能都面临着从结构化、自然主义数据中学习的挑战,我们假设分组的认知机制可以为人工系统提供见解。我们首先在具有施加规律的人工序列上训练循环神经网络 (RNNs) 中展示了这一概念,观察到它们的隐藏状态反映了这些模式,并可以提取出影响网络响应的一系列分组。将这一方法扩展到大型语言模型(LLMs)如 LLaMA,我们识别出了与输入中概念相对应的类似重复嵌入状态,并且对这些状态的扰动会激活或抑制相关的概念。通过探索提取不同复杂性神经嵌入中可识别分组字典的方法,我们的发现为解释神经网络引入了一个新的框架,将它们的群体活动视为数据处理的结构化反映。