LLM2D

摘要

arXiv:2503.22456v2 更新类型: 替换-交叉摘要: 我们引入了一种新颖的方法Entropy-Guided Sequence Weighting (EGSW)，该方法通过基于生成输出的优势和熵动态分配权重来增强探索-利用权衡，从而提高基于强化学习的大型语言模型微调的效果。EGSW将熵正则化与基于优势的加权相结合，以平衡策略更新，从而在高维度状态空间中实现有效的探索。通过使用温度调整的softmax加权，EGSW优先考虑高奖励、高不确定性步骤，同时保持培训稳定性。尽管最初是为了在大型语言模型（LLM）微调过程中改进Group Relative Policy Optimization (GRPO)而开发的，但EGSW具有通用性，可以应用于其他强化学习(RL)算法，并且可以在步骤层面和轨迹层面实现。实验评估显示，EGSW增强了GRPO的推理能力，提高了样本效率。未来的工作将探索EGSW在高级RL方法中的应用。