LLM2D

摘要

arXiv:2310.01770v4 宣告类型: replace-cross 摘要: 理解损失景观几何中参数空间的锐度，即反映损失景观平坦性的度量，一直是研究神经网络行为潜力联系的基础。虽然锐度通常与泛化相关联，但最近的研究揭示了这种关系中的不一致，使得其真正意义仍然模糊不清。在这篇论文中，我们探讨了锐度如何影响特征空间中神经表示的局部几何特征，提供了一个关于其作用的新视角。我们介绍了这个问题，并研究了三种压缩度量：基于体压缩的局部体积比（LVR）、基于输入变化敏感性的最大局部敏感性（MLS）以及基于敏感性在不同方向上的均匀性的局部维度。我们展示了LVR和MLS与局部最小值周围的损失平坦性相关，并且这种相关性可以用相对简单的数学关系来预测：平坦度较深的损失对应于神经表示压缩度量的上界较低。我们的工作建立在Ma和Ying的线性稳定性洞察之上，推导出了各种压缩度量和涉及锐度的数量之间的不等式。这些不等式也自然扩展到重新参数化不变的锐度。通过在各种前向、卷积和变压器架构上的经验实验，我们发现我们的不等式预测了局部表示压缩和锐度之间始终为正的相关性。