LLM2D

摘要

arXiv:2504.18929v1 宣告类型: cross 摘要：压缩一直是理解Transformer成功的关键视角。过去，我们通常采用目标分布作为评估模型压缩性能的标准。然而，要准确评估模型在压缩过程中是否成功实现压缩，并在压缩过程中比较学习分布与目标分布的信息内容往往极具挑战性，因为目标分布通常未知，熵计算往往成本高昂。在本工作中，我们在受控的实验设置下探讨了这些问题。我们发现，Transformer 在数据压缩中表现出独特的归纳偏见：除了接近目标分布外，它们倾向于学习低熵分布，随着模型规模的增大，这种倾向愈发明显。这种偏好阻止Transformer 完美地与目标分布对齐，反而进一步压缩其信息内容。此外，我们证明FFN模块在驱动这种偏见方面起着关键作用。同时，在压缩过程中，模型从数据中消除了信息冗余，但在其参数中也表现出冗余，这使得压缩成为可能，并且可以通过动态稀疏性来表征。然而，Transformer，特别是注意力和FFN模块中的动态稀疏性模式，仍需进一步探索。为此，我们显示，更大的Transformer 对通过残差连接绕过注意力计算表现出更强的偏好，并且活跃神经元的比例较低。令人有趣的是，我们还发现，在更大规模的模型中，训练不稳定性和突然增加的失活神经元数量之间存在强烈的关联。我们的研究为从熵和动态稀疏性的视角更深入地理解Transformer做出了贡献。