摘要
arXiv:2410.09300v3 宣告类型:替换交叉
摘要:大型语言模型(LLMs)需要进行对齐,以便有效地和安全地遵循用户指令。这一过程需要为每个基础模型训练一个对齐版本,导致了大量的计算开销。在本工作中,我们提出了轻推(Nudging)算法,这是一种简单、即插即用、无需训练的算法,可以在推理时对任何基础模型进行对齐,只需使用一个较小的对齐模型。轻推法受到最近发现的启发,即对齐主要改变模型在一小部分风格标记(例如,话语标记)上的行为。我们发现,在生成这些标记时,基础模型会有显著更大的不确定度。基于这一见解,轻推使用一个较小的对齐模型来生成引导标记,在基础模型的不确定度较高时,指导基础模型在解码过程中的输出。我们对三种模型家族在多种开放指令任务上进行了评估。使用一个7至14倍较小的对齐模型对大型基础模型进行轻推,可以在零样本设置下达到与大型对齐模型相当,甚至有时超越的效果。通过在标记级别操作,轻推使得不同模型家族能够开箱即用地协作。例如,使用Llama-2-7b-chat对Gemma-2-27b进行轻推,在多种任务上表现优于Llama-2-70b-chat。总的来说,我们的工作提供了一种模块化且成本效益高的解决LLM对齐问题的方案。我们的项目网站:https://fywalter.github.io/nudging/。