LLM2D

摘要

向量量化是一种将连续表示离散化为一组离散向量的机器学习技术。它广泛应用于大型语言模型、扩散模型和其他生成模型的数据表示标记化中。尽管它很普遍，但向量量化在生成模型中的特性和行为在很大程度上仍未得到充分探索。在本研究中，我们研究了向量量化中的表示崩溃——一种严重的退化，其中码本标记或潜在嵌入通过收敛到有限的子集值而失去其判别能力。这种崩溃从根本上损害了模型捕获多样化数据模式的能力。通过利用合成数据集和真实数据集，我们确定了每种类型崩溃的严重程度和触发条件。我们的分析表明，受限初始化和有限的编码器容量会导致标记崩溃和嵌入崩溃。基于这些发现，我们提出了旨在减轻每种崩溃的潜在解决方案。据我们所知，这是第一项全面研究向量量化中表示崩溃问题的研究。