LLM2D

摘要

随着语言模型在我们社会中的影响力和信任度日益增加，我们可靠地引导它们朝着有利行为的能力变得愈发重要。为此，我们研究了引导向量的技术：通过从特定任务中提取的“引导向量”来偏置语言模型的前向传递。我们将这种方法应用于引导语言模型进行思维链（Chain of Thought, CoT）推理，而无需通过自然语言进行提示。我们在Llama3 8b和Mistral 7b v0.2上展示了这种方法，并在一系列推理基准（GSM8k、MMLU、AGI Eval、ARC AI2）和定性示例中获得了与CoT提示性能相媲美的结果。我们发现这种方法能够一致地引导模型生成CoT响应，并且比传统的微调模型以实现CoT的方法消耗更少的计算资源。