LLM2D

摘要

arXiv:2410.21719v2 Announce Type: replace-cross 摘要：在没有参考数据的情况下评估生成模型的多样性存在方法论上的挑战。参考数据免费的 Vendi 分数通过使用矩阵熵度量量化生成数据的多样性提供了一种解决方案。Vendi 分数通常通过计算包含 n 个生成样本的 n × n 核矩阵的特征分解来计算。然而，对于大 n 值，特征分解的高计算成本往往限制了实践中使用的样本数量至几万个。在本文中，我们研究了 Vendi 分数的统计收敛性。我们数值上证明，对于具有无限特征映射维度的核函数，从有限样本数量估计的分数与总体 Vendi 分数，即样本数量趋于无穷大的渐近极限，可能存在不可忽视的偏差。为解决这一问题，我们引入了 Vendi 统计量的截断版本，称为 t 截断的 Vendi 统计量，给定 n=O(t) 的样本数量，它可保证收敛于其渐近极限。我们证明了现有的 Nyström 方法和 FKEA 近似方法用于近似 Vendi 分数，都收敛于截断的总体 Vendi 分数。我们进行了几项数值实验来说明 Nyström 和 FKEA 计算的 Vendi 分数围绕截断的 Vendi 集中的情况，并讨论了截断的 Vendi 分数与图像和文本数据多样性的相关性。