LLM2D

摘要

给定提示“罗马位于”，我们能否仅通过将少数相关激活向量乘以标量来引导语言模型将错误的预测“法国”翻转为正确的预测“意大利”？我们认为，成功干预模型是解读其内部运作的先决条件。具体而言，我们建立了一个三项目标：成功的干预应将正确和错误的词元相互翻转（有效性），并保持其他词元不受影响（忠实度），同时保持稀疏性（最小性）。利用基于梯度的优化，该目标使我们能够学习（并随后评估）一种特定类型的有效且可解释的干预：激活缩放仅修改激活向量的符号幅度，以加强、削弱或反转模型中已编码的转向方向。在合成任务中，这种干预在有效性和忠实度方面与转向向量相当，但更具最小性，使我们能够查明可解释的模型组件。我们从不同角度评估激活缩放，比较不同数据集上的性能，并将激活标量设为激活向量本身的可学习函数，以泛化到不同长度的提示。