LLM2D

摘要

arXiv:2504.04520v1 Announce Type: 横向摘要：计算整个大型语言模型（LLM）的完整海森矩阵——即整个大型语言模型的二阶导数矩阵——在实际上是不可能的，因为它的规模过于庞大。在这份技术报告中，我们旨在提供一个全面的指南，说明如何使用PyTorch的autograd库来准确计算LLM的部分海森矩阵。我们还演示了如何使用多个向量-海森矩阵乘积（HVPs）的样本来计算海森矩阵的完整对角线。我们希望这份指南以及附带的GitHub代码可为那些希望更好地理解LLM中海森矩阵的行为和结构的研究人员和实践者提供有价值的资源。