LLM2D

摘要

arXiv:2410.09300v3 宣告类型：替换交叉摘要：大型语言模型（LLMs）需要进行对齐，以便有效地和安全地遵循用户指令。这一过程需要为每个基础模型训练一个对齐版本，导致了大量的计算开销。在本工作中，我们提出了轻推（Nudging）算法，这是一种简单、即插即用、无需训练的算法，可以在推理时对任何基础模型进行对齐，只需使用一个较小的对齐模型。轻推法受到最近发现的启发，即对齐主要改变模型在一小部分风格标记（例如，话语标记）上的行为。我们发现，在生成这些标记时，基础模型会有显著更大的不确定度。基于这一见解，轻推使用一个较小的对齐模型来生成引导标记，在基础模型的不确定度较高时，指导基础模型在解码过程中的输出。我们对三种模型家族在多种开放指令任务上进行了评估。使用一个7至14倍较小的对齐模型对大型基础模型进行轻推，可以在零样本设置下达到与大型对齐模型相当，甚至有时超越的效果。通过在标记级别操作，轻推使得不同模型家族能够开箱即用地协作。例如，使用Llama-2-7b-chat对Gemma-2-27b进行轻推，在多种任务上表现优于Llama-2-70b-chat。总的来说，我们的工作提供了一种模块化且成本效益高的解决LLM对齐问题的方案。我们的项目网站：https://fywalter.github.io/nudging/。