LLM2D
逐层揭示:揭开语言模型中的隐藏表示
Layer by Layer: Uncovering Hidden Representations in Language Models
作者: Oscar Skean, Md Rifat Arefin, Dan Zhao, Niket Patel, Jalal Naghiyev, Yann LeCun, Ravid Shwartz-Ziv
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.02013v1

摘要

arXiv:2502.02013v1 类型: cross 摘要:从提取特征到生成文本,大型语言模型(LLMs)的输出通常依赖于其最终层,这一观点认为早期层只能捕捉低层级线索。然而,我们的分析表明,中间层可以编码更加丰富的表示,通常在多种下游任务中表现更好。为了解释和量化这些隐藏层的性质,我们提出了一种基于信息理论、几何和输入扰动不变性的统一表示质量度量框架。该框架突显了每一层模型在信息压缩和信号保留之间的平衡,揭示了为什么中间深度嵌入有时会超越最终层的表现。通过在32个文本嵌入任务中进行广泛的实验,并在模型架构(变换器、状态空间模型)和领域(语言、视觉)之间进行比较,我们证明了中间层始终提供更强的特征。这些发现挑战了对最终层嵌入的传统关注,并为模型分析和优化开辟了新的方向,包括战略性使用中间层表示以构建更稳健和准确的人工智能系统。