摘要
arXiv:2409.13697v1 公告类型: 交叉 摘要: 改变大型语言模型(LLM)行为的两种主要方式是提示和权重更新(例如,微调)。提示LLM简单有效,通过自然语言明确指定所需的变化,而权重更新则提供更具表现力和永久性的行为变化,通过在大数据集上训练隐式指定。我们提出了一种将提示"烘焙"到LLM权重中的技术。提示烘焙将提示$u$和初始权重$\theta$转换为一组新的权重$\theta_u$,使得新的"烘焙"LLM表现得像原始提示的LLM。在数学上,我们最小化$P_\theta(\cdot | u)$和$P_{\theta_u}(\cdot)$之间的KL散度,其中$P$是LLM在token序列上的概率分布。在我们所有的实验中,我们发现提示可以很容易地烘焙到权重更新中。烘焙思维链提示提高了GSM8K、ASDiv、MBPP、ARC-Easy、ARC-Challenge和CommonsenseQA基准上的零样本性能。直接烘焙新闻标题更新了LLM的知识。烘焙指令和角色缓解了长序列中的"提示遗忘"。此外,提前停止烘焙会创建"半烘焙"模型,持续扩展提示强度。烘焙模型保留了对进一步提示和烘焙的敏感性,包括使用烘焙提示重新提示。令人惊讶的是,重新提示的模型在指令跟随以及数学推理和编码基准上进一步提高了性能。将重新提示和重新烘焙推向极限,产生了一种我们称之为提示追求的迭代自我改进形式,初步结果表明在指令跟随方面取得了显著的性能提升。最后,我们讨论了对AI安全、持续模型更新、增强基于LLM的代理的实时学习能力以及生成更稳定的AI角色的影响。