摘要
我们提出了一种利用“喷射”来扩展残差计算图的框架,其中“喷射”是广义的截断泰勒级数算子。我们的方法为解开不同计算路径对模型预测的贡献提供了一种系统性的方法。与蒸馏、探测或早期解码等现有技术相比,我们的扩展仅依赖于模型本身,不需要数据、训练或从模型中采样。我们展示了我们的框架如何为logit lens提供基础并将其包含在内,揭示了递归残差深度中的(超)指数路径结构,并开辟了多种应用。这些应用包括使用从模型计算中提取的n-gram统计数据来描绘一个Transformer大型语言模型,以及索引模型的毒性知识水平。我们的方法使残差计算的数据无关分析成为可能,从而实现模型的可解释性、开发和评估。