LLM2D
大型语言模型的困惑度海森堡:基于PyTorch autograd的实现(开源)
Hessian of Perplexity for Large Language Models by PyTorch autograd (Open Source)
作者: Ivan Ilin
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04520v1

摘要

arXiv:2504.04520v1 Announce Type: 横向 摘要:计算整个大型语言模型(LLM)的完整海森矩阵——即整个大型语言模型的二阶导数矩阵——在实际上是不可能的,因为它的规模过于庞大。在这份技术报告中,我们旨在提供一个全面的指南,说明如何使用PyTorch的autograd库来准确计算LLM的部分海森矩阵。我们还演示了如何使用多个向量-海森矩阵乘积(HVPs)的样本来计算海森矩阵的完整对角线。我们希望这份指南以及附带的GitHub代码可为那些希望更好地理解LLM中海森矩阵的行为和结构的研究人员和实践者提供有价值的资源。