摘要
arXiv:2503.02080v2 宣告类型:替换-交叉
摘要:大规模语言模型(LLMs)展示了生成反映不同主观人类观点的文本的能力。本文研究了LLMs在其他政治观点中在美国政治中反映出更自由或更保守观点的方式。我们表明,LLMs在激活空间中具有政治观点的线性表示,其中更相似的观点在空间中更接近。为此,我们探究了三个开源的基于Transformer的语言模型(Llama-2-7b-chat、Mistral-7b-instruct、Vicuna-7b)的注意力头。首先,我们提示模型从不同美国立法者的角度生成文本。然后,我们确定一组注意力头,其激活可以线性地预测这些立法者的DW-NOMINATE分数,这是一种广泛使用和验证的政治意识形态衡量标准。我们发现,高度预测的头主要位于中间层,通常被认为编码高层次的概念和任务。使用仅训练用于预测立法者意识形态的探测器,我们展示了这些探测器可以从提示模型模拟特定新闻机构文本的激活中预测这些新闻机构倾向的量度。这些线性探测器使我们能够可视化、解释和监控LLM在生成开放式响应时暗含的政治立场。最后,我们通过应用到这些注意力头的线性干预,展示了可以引导模型输出朝向更自由或更保守的立场。总体而言,我们的研究建议LLMs具有美国政治意识形态的高层次线性表示,并且通过利用最近在机械可解释性方面的进展,我们可以识别、监控和引导生成文本背后的观点。