摘要
arXiv:2504.08335v1 Announce Type: cross
摘要:利用信息论中的熵不等式,我们提供了条件高斯分布与具有可逆协方差矩阵的高斯分布之间的总变差和2- Wasserstein距离的新界。我们应用我们的结果来量化在初始化为高斯分布且内部层的大小趋于无穷大时,随机初始化的全连接神经网络及其在有限数量输入处的导数(评估结果)收敛到高斯分布的速度。我们的结果对激活函数的假设较为温和,并允许在多种距离中恢复最优的收敛速率,从而改进并扩展了Basteri和Trevisan(2023)、Favaro等人(2023)、Trevisan(2024)和Apollonio等人(2024)的研究成果。我们主要工具之一是Hanin(2024)建立的量化 cumulant 估计。作为示例,我们将我们的结果应用于神经网络及其导数(在有限数量输入处评估结果)的后验贝叶斯后验律与相应高斯极限的后验律之间的总变差距离的界。这提供了Hron等人(2022)提出的后验中心极限定理的量化版本,并将Trevisan(2024)的多项估计扩展到总变差度量中。