LLM2D

摘要

arXiv:2502.01803v1 公告类型：交叉摘要：理解神经网络具有挑战性，因为它们由高维度的相互作用组件构成。受人类认知的启发，人类通过将复杂的感官数据分块为重复的实体来处理复杂的数据，我们提出利用这一原则来解释人工神经群体活动。生物学和人工智能都面临着从结构化的自然数据中学习的挑战，我们假设分块的认知机制可以为人工系统提供见解。我们首先在受规则约束的人工序列上训练的循环神经网络（RNNs）中证明了这一概念，观察到它们的隐藏状态反映了这些模式，这些模式可以通过提取影响网络响应的分块词典来提取。将这一概念扩展到大型语言模型（LLMs）如LLaMA，我们识别出类似的重复嵌入状态，这些状态对应于输入中的概念，对这些状态的扰动激活或抑制相关的概念。通过探索提取不同复杂性神经嵌入中可识别分块词典的方法，我们的研究成果引入了一种新的框架来解释神经网络，将它们的群体活动构架为对所处理数据的结构化反映。