摘要
弗雷歇视频距离 (FVD) 是一种广泛用于评估视频生成分布质量的指标。然而,其有效性依赖于关键假设。我们的分析揭示了三个显著的局限性:(1) 膨胀三维卷积网络 (I3D) 特征空间的非高斯性;(2) I3D 特征对时间扭曲的不敏感性;(3) 可靠估计所需的样本量过大。这些发现削弱了 FVD 的可靠性,并表明 FVD 作为视频生成评估的独立指标存在不足。在对各种指标和主干架构进行广泛分析后,我们提出了基于联合嵌入预测架构 (JEPA) 特征的 JEPA 嵌入距离 (JEDi),并使用具有多项式核的最大平均差异进行度量。我们在多个开源数据集上的实验清楚地表明,它优于广泛使用的 FVD 指标,只需 16% 的样本即可达到其稳定值,同时平均将与人工评估的一致性提高了 34%。