LLM2D

摘要

arXiv:2503.22456v1 类型: cross 摘要: 我们介绍了熵导向序列加权(Entropy-Guided Sequence Weighting, EGSW)，这是一种新颖的方法，通过根据生成输出的优性和熵动态分配权重来增强强化学习(Reinforcement Learning)基础的大语言模型( Large Language Model, LLM)微调中的探索与利用权衡。EGSW 将熵正则化与基于优性的加权相结合，以平衡策略更新，从而在高维状态空间中实现有效的探索。通过使用温度缩放的 softmax 加权序列，EGSW 优先考虑高奖励、高不确定性步骤，同时保持训练稳定性。尽管最初是为改进大语言模型微调过程中组相对策略优化(Group Relative Policy Optimization, GRPO)而开发的，但EGSW 可以推广到其他强化学习(Reinforcement Learning, RL)算法，并且可以在步骤级和轨迹级设置中实现。实证评估表明，EGSW 提升了 GRPO 的推理能力，提高了样本效率。未来的研究将探索 EGSW 在更先进的 RL 方法中的应用。