摘要
arXiv:2504.04520v1 Announce Type: 横向
摘要:计算整个大型语言模型(LLM)的完整海森矩阵——即整个大型语言模型的二阶导数矩阵——在实际上是不可能的,因为它的规模过于庞大。在这份技术报告中,我们旨在提供一个全面的指南,说明如何使用PyTorch的autograd库来准确计算LLM的部分海森矩阵。我们还演示了如何使用多个向量-海森矩阵乘积(HVPs)的样本来计算海森矩阵的完整对角线。我们希望这份指南以及附带的GitHub代码可为那些希望更好地理解LLM中海森矩阵的行为和结构的研究人员和实践者提供有价值的资源。