LLM2D

摘要

在无监督表征学习中，模型旨在从高维数据中提取基本特征，并将其提炼成低维的学习表征，这由归纳偏差引导。理解使表征良好的特征仍然是正在进行的研究课题。独立生成过程的解耦长期以来被认为可以产生高质量的表征。然而，仅仅关注满足大多数解耦度量严格要求的表征，可能会导致忽视许多适用于各种下游任务的高质量表征。这些度量通常要求生成因子被编码在与表征空间的规范基对齐的、独特的、单一维度中。受这些观察结果的启发，我们提出了两种新的度量：重要性加权正交性（IWO）和重要性加权秩（IWR）。这些度量评估了生成因子子空间的互正交性和秩。在对多个基准数据集和模型进行的广泛下游任务实验中，IWO 和 IWR 与传统解耦度量相比，始终表现出与下游任务性能更强的相关性。我们的发现表明，表征质量与独立生成过程的正交性更相关，而不是它们的解耦，这为评估和改进无监督学习模型提供了新的方向。