摘要
大型语言模型(LLM)基于仅解码器Transformer构建,在自然语言生成方面表现出色,并通过零样本和少样本提示适应各种任务。然而,这些提示方法在自然语言理解(NLU)任务中往往难以奏效,在GLUE和SuperGLUE等基准测试中,仅编码器模型如BERT-base的表现优于LLM。本文探讨了两种方法——监督微调(SFT)和近端策略优化(PPO)——以增强LLM的NLU能力。为了降低全模型微调的成本,我们集成了低秩自适应(LoRA)层,在SFT和PPO期间仅限制对这些层的更新。在SFT中,任务特定的提示与输入查询和真实标签串联,并使用下一个词预测进行优化。尽管如此,在一些NLU任务中,LLM的表现仍然不如BERT-base等模型。为了缩小差距,我们应用了PPO,这是一种强化学习技术,将每个词生成视为一个动作,并使用基于与真实答案对齐的奖励函数。然后,PPO更新模型以最大化这些奖励,使输出与正确标签对齐。我们对LLAMA2-7B的实验表明,PPO提高了性能,在GLUE上比SFT提高了6.3个点。在GLUE上,PPO比零样本提高了38.7个点,比少样本提高了26.1个点,而在SuperGLUE上分别超过了28.8和28.5个点。此外,PPO在GLUE上比BERT-large高出2.7个点,在SuperGLUE上高出9.3个点。这些改进在Qwen2.5-7B和MPT-7B等模型中是一致的,突出了PPO在增强LLM的NLU能力方面的鲁棒性。