LLM2D
超越FVD:增强型视频生成质量评估指标
Beyond FVD: Enhanced Evaluation Metrics for Video Generation Quality
作者: Ge Ya (Olga), Luo, Gian Favero, Zhi Hao Luo, Alexia Jolicoeur-Martineau, Christopher Pal
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.05203v1

摘要

弗雷谢视频距离(FVD)是广泛用于评估视频生成分布质量的指标。然而,其有效性依赖于关键假设。我们的分析揭示了三个显著的局限性:(1)膨胀3D卷积网络(I3D)特征空间的非高斯性;(2)I3D特征对时间扭曲的敏感性不足;(3)可靠估计所需的样本量不切实际。这些发现削弱了FVD的可靠性,并表明FVD作为视频生成评估的独立指标存在不足。在对各种指标和主干架构进行广泛分析后,我们提出了JEDi,即JEPA嵌入距离,它基于从联合嵌入预测架构中提取的特征,使用具有多项式核的最大均值差异进行度量。我们在多个开源数据集上的实验清楚地表明,它是一个优于广泛使用的FVD指标的替代方案,只需要16%的样本就能达到其稳定值,同时平均提高了与人类评估的一致性34%。