摘要
控制人工智能行为的能力对于防止其长期潜在的危险和灾难性后果至关重要。表征工程(RepE)已成为一种新颖而强大的方法,可以自上而下地引导内部模型的行为,例如“诚实”。因此,了解表征的引导应放在对齐倡议的最前沿。不幸的是,目前在这一层面上理解可塑性的努力却被严重忽视。本文旨在弥合知识差距,了解大型语言模型表征的稳定性,特别是“诚实”的概念,以及模型可塑性如何通过在不同的微调阶段提取的引导向量而发生变化,揭示了模型行为变化的不同幅度。研究结果至关重要,表明尽管早期引导表现出高度的可塑性,但后期阶段却有一个令人惊讶的响应性关键窗口。这种模式在不同的模型架构中都被观察到,表明存在一种通用的模型可塑性模式,可用于有效的干预。这些见解对人工智能透明度领域做出了巨大贡献,解决了限制我们有效引导模型行为的迫切的效率缺乏问题。