摘要
arXiv:2503.22456v1 类型: cross
摘要: 我们介绍了熵导向序列加权(Entropy-Guided Sequence Weighting, EGSW),这是一种新颖的方法,通过根据生成输出的优性和熵动态分配权重来增强强化学习(Reinforcement Learning)基础的大语言模型( Large Language Model, LLM)微调中的探索与利用权衡。EGSW 将熵正则化与基于优性的加权相结合,以平衡策略更新,从而在高维状态空间中实现有效的探索。通过使用温度缩放的 softmax 加权序列,EGSW 优先考虑高奖励、高不确定性步骤,同时保持训练稳定性。尽管最初是为改进大语言模型微调过程中组相对策略优化(Group Relative Policy Optimization, GRPO)而开发的,但EGSW 可以推广到其他强化学习(Reinforcement Learning, RL)算法,并且可以在步骤级和轨迹级设置中实现。实证评估表明,EGSW 提升了 GRPO 的推理能力,提高了样本效率。未来的研究将探索 EGSW 在更先进的 RL 方法中的应用。