摘要
arXiv:2505.02579v1 宣告类型: cross
摘要: 近期在大规模语言模型(LLM)微调中的强化学习(RL)进展显示出了在解决多目标任务方面的潜力,但仍面临着重大挑战,包括复杂的多目标平衡、低训练效率、较差的扩展性和有限的可解释性。利用集成学习的原则,我们引入了一种集成多目标RL(EMORL)框架,该框架在训练过程中对多个模型进行微调,然后优化它们的聚合,以提高效率和灵活性。我们的方法首次结合了单个模型的最后一层隐藏状态,并纳入了多个目标的上下文信息。该方法通过层次网格搜索算法来识别最优加权组合。我们在咨询师反思生成任务上评估了EMORL,使用文本评分LLM来评估生成物并在RL微调过程中提供奖励。通过在PAIR和Psych8k数据集上的全面实验,我们展示了EMORL相对于现有基线的优势:显著更低且更稳定的训练消耗(17,529±1,650个数据点和6,573±147.43秒),改进的可扩展性和可解释性,以及在多个目标上的可比较性能。