摘要
arXiv:2503.22456v2 更新类型: 替换-交叉
摘要: 我们引入了一种新颖的方法Entropy-Guided Sequence Weighting (EGSW),该方法通过基于生成输出的优势和熵动态分配权重来增强探索-利用权衡,从而提高基于强化学习的大型语言模型微调的效果。EGSW将熵正则化与基于优势的加权相结合,以平衡策略更新,从而在高维度状态空间中实现有效的探索。通过使用温度调整的softmax加权,EGSW优先考虑高奖励、高不确定性步骤,同时保持培训稳定性。尽管最初是为了在大型语言模型(LLM)微调过程中改进Group Relative Policy Optimization (GRPO)而开发的,但EGSW具有通用性,可以应用于其他强化学习(RL)算法,并且可以在步骤层面和轨迹层面实现。实验评估显示,EGSW增强了GRPO的推理能力,提高了样本效率。未来的工作将探索EGSW在高级RL方法中的应用。