LLM2D
神经嵌入中可解释性的片段发现
Discovering Chunks in Neural Embeddings for Interpretability
作者: Shuchen Wu, Stephan Alaniz, Eric Schulz, Zeynep Akata
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01803v1

摘要

arXiv:2502.01803v1 公告类型:交叉 摘要:理解神经网络具有挑战性,因为它们由高维度的相互作用组件构成。受人类认知的启发,人类通过将复杂的感官数据分块为重复的实体来处理复杂的数据,我们提出利用这一原则来解释人工神经群体活动。生物学和人工智能都面临着从结构化的自然数据中学习的挑战,我们假设分块的认知机制可以为人工系统提供见解。我们首先在受规则约束的人工序列上训练的循环神经网络(RNNs)中证明了这一概念,观察到它们的隐藏状态反映了这些模式,这些模式可以通过提取影响网络响应的分块词典来提取。将这一概念扩展到大型语言模型(LLMs)如LLaMA,我们识别出类似的重复嵌入状态,这些状态对应于输入中的概念,对这些状态的扰动激活或抑制相关的概念。通过探索提取不同复杂性神经嵌入中可识别分块词典的方法,我们的研究成果引入了一种新的框架来解释神经网络,将它们的群体活动构架为对所处理数据的结构化反映。