LLM2D
逐层解析:揭开语言模型中的隐藏表示
Layer by Layer: Uncovering Hidden Representations in Language Models
作者: Oscar Skean, Md Rifat Arefin, Dan Zhao, Niket Patel, Jalal Naghiyev, Yann LeCun, Ravid Shwartz-Ziv
发布日期: 2/5/2025
arXiv ID: 2502.02013

摘要

arXiv:2502.02013v1 宣言类型: cross 摘要:从提取特征到生成文本,大型语言模型(LLMs)的输出通常依赖于其最终层,遵循传统智慧认为早期层仅捕获低级线索的观点。然而,我们的分析表明,中间层可以编码更丰富的表示,并且在一系列下游任务中经常表现出更好的性能。为了解释和量化这些隐藏层的属性,我们提出了一种基于信息理论、几何学和输入扰动不变性的统一表示质量度量框架。该框架突出了每个模型层在信息压缩和信号保留之间的权衡,揭示了为什么中间深度的嵌入可以超越最终层的性能。通过在32个文本嵌入任务上进行广泛的实验,并在不同模型架构(变换器、状态空间模型)和领域(语言、视觉)上进行比较,我们证明中间层始终提供更强的特征。这些发现挑战了仅关注最终层嵌入的标准做法,并为模型分析和优化开辟了新的方向,包括策略性地利用中间层表示以构建更鲁棒和准确的AI系统。