LLM2D

摘要

大型语言模型（LLM）基于仅解码器Transformer构建，在自然语言生成方面表现出色，并通过零样本和少样本提示适应各种任务。然而，这些提示方法在自然语言理解（NLU）任务中往往难以奏效，在GLUE和SuperGLUE等基准测试中，仅编码器模型如BERT-base的表现优于LLM。本文探讨了两种方法——监督微调（SFT）和近端策略优化（PPO）——以增强LLM的NLU能力。为了降低全模型微调的成本，我们集成了低秩自适应（LoRA）层，在SFT和PPO期间仅限制对这些层的更新。在SFT中，任务特定的提示与输入查询和真实标签串联，并使用下一个词预测进行优化。尽管如此，在一些NLU任务中，LLM的表现仍然不如BERT-base等模型。为了缩小差距，我们应用了PPO，这是一种强化学习技术，将每个词生成视为一个动作，并使用基于与真实答案对齐的奖励函数。然后，PPO更新模型以最大化这些奖励，使输出与正确标签对齐。我们对LLAMA2-7B的实验表明，PPO提高了性能，在GLUE上比SFT提高了6.3个点。在GLUE上，PPO比零样本提高了38.7个点，比少样本提高了26.1个点，而在SuperGLUE上分别超过了28.8和28.5个点。此外，PPO在GLUE上比BERT-large高出2.7个点，在SuperGLUE上高出9.3个点。这些改进在Qwen2.5-7B和MPT-7B等模型中是一致的，突出了PPO在增强LLM的NLU能力方面的鲁棒性。