摘要
arXiv:2505.07908v1 类别: cross
摘要: 在这项再现性研究中,我们重新审视了最近关于自注意力机制实现了核主成分分析 (KPCA) 的断言 (Teo et al., 2024),提出 (i) 价值向量 \(V\) 捕捉了键的格拉姆矩阵的特征向量,以及 (ii) 自注意力将查询投影到键矩阵 \(K\) 的特征空间中的主成分轴上。我们的分析揭示了三个关键不一致之处:(1) 学习得到的自注意力价值向量与 KPCA 视角中提出的没有对齐,平均相似度指标(最优余弦相似度 \(\leq 0.32\),线性 CKA(中心化核对齐精度)\(\leq 0.11\),核 CKA \(\leq 0.32\))表明几乎没有对应关系;(2) 报告的重构损失 \(J_{\text{proj}}\) 的下降,可能被认为是自注意力机制最小化 KPCA 投影误差的证据,实际上被误读了,因为涉及的数量级相差悬殊(约 \(\sim10^3\));(3) 为证明 \(V\) 捕捉了格拉姆矩阵的特征向量而引入的格拉姆矩阵特征值统计,在没有无记录的实现特定调整的情况下无法重现。在 10 种不同的 Transformer 架构中,我们得出结论,自注意力机制的 KPCA 解释缺乏实证支持。