LLM2D
随机 lattice 上的表示学习
Representation Learning on a Random Lattice
作者: Aryeh Brill
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20197v1

摘要

arXiv:2504.20197v1 宣告类型:交叉 摘要:将深度神经网络学习到的表示分解为可解释的特征,可以大大增强其安全性和可靠性。为了更好地理解这些特征,我们采用几何视角,将它们视为一种用于映射嵌入数据分布的学习坐标系。我们以随机晶格为通用数据分布模型,并使用渗流理论分析其性质。学习到的特征被分类为上下文特征、组件特征和表面特征。该模型在近期的机制可解释性研究成果中具有定性一致性,并为未来的研究指明了方向。