LLM2D
语言模型的机制行为编辑
Mechanistic Behavior Editing of Language Models
作者: Joykirat Singh, Subhabrata Dutta, Tanmoy Chakraborty
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.04277v1

摘要

在网页规模文本上训练的大型语言模型(LLMs)获得了语言生成能力,可以解决各种各样的任务,特别是在使用上下文示例将任务知识细化到生成先验的情况下。然而,从噪声数据中学习到的虚假特征会阻碍其泛化能力。监督微调可以引入任务特异性,但会引入数据低效性。先前的研究表明:(i)噪声神经回路与 LLMs 中的泛化性神经回路共存,以及(ii)微调通常会增强(或抑制)现有能力,而不会引入新的能力。基于这些,我们提出了一种名为 TaRot 的新任务适应方法。TaRot 使用可学习的旋转矩阵干预神经回路,这些矩阵使用贝叶斯优化在标准少样本提示示例的数量级上用标记样本进行优化。使用不同大小的 LLMs 在多个分类和生成任务上的实验揭示了 TaRot 的有效性,在零样本和少样本性能方面均有所改进,平均改进(跨模型和任务)分别为 23.81% 和 11.15%。源代码可在 https://github.com/joykirat18/TaRot 获取。