摘要
arXiv:2505.02579v2 声明类型:cross
摘要:近期在大规模语言模型(LLM)微调中的强化学习(RL)进展显示出解决多目标任务的前景,但仍面临重大挑战,包括复杂的目标平衡、低效的训练、较差的可扩展性和有限的解释性。利用集成学习原则,我们提出了一种集成多目标RL(EMORL)框架,该框架在微调多个具有不同目标的模型的同时,在训练后优化它们的聚合,以提高效率和灵活性。我们的方法是首次将个体模型的最后一层隐藏状态进行聚合,同时整合多个目标的上下文信息。这种方法得到了一种分层网格搜索算法的支持,该算法识别出最优加权组合。我们使用文本评分的LLM来评估和奖励生成内容,从而在RL微调期间评价生成结果。通过在PAIR和Psych8k数据集上的全面实验,我们展示了EMORL相对于现有基线的优势:显着更低且更稳定的训练消耗(每批次17,529±1,650个数据点和每批次6,573±147.43秒),改进的可扩展性和解释性,以及在多个目标上可比的性能。