LLM2D

摘要

弗雷谢视频距离（FVD）是广泛用于评估视频生成分布质量的指标。然而，其有效性依赖于关键假设。我们的分析揭示了三个显著的局限性：（1）膨胀3D卷积网络（I3D）特征空间的非高斯性；（2）I3D特征对时间扭曲的敏感性不足；（3）可靠估计所需的样本量不切实际。这些发现削弱了FVD的可靠性，并表明FVD作为视频生成评估的独立指标存在不足。在对各种指标和主干架构进行广泛分析后，我们提出了JEDi，即JEPA嵌入距离，它基于从联合嵌入预测架构中提取的特征，使用具有多项式核的最大均值差异进行度量。我们在多个开源数据集上的实验清楚地表明，它是一个优于广泛使用的FVD指标的替代方案，只需要16%的样本就能达到其稳定值，同时平均提高了与人类评估的一致性34%。