LLM2D

摘要

arXiv:2505.02579v2 声明类型：cross 摘要：近期在大规模语言模型（LLM）微调中的强化学习（RL）进展显示出解决多目标任务的前景，但仍面临重大挑战，包括复杂的目标平衡、低效的训练、较差的可扩展性和有限的解释性。利用集成学习原则，我们提出了一种集成多目标RL（EMORL）框架，该框架在微调多个具有不同目标的模型的同时，在训练后优化它们的聚合，以提高效率和灵活性。我们的方法是首次将个体模型的最后一层隐藏状态进行聚合，同时整合多个目标的上下文信息。这种方法得到了一种分层网格搜索算法的支持，该算法识别出最优加权组合。我们使用文本评分的LLM来评估和奖励生成内容，从而在RL微调期间评价生成结果。通过在PAIR和Psych8k数据集上的全面实验，我们展示了EMORL相对于现有基线的优势：显着更低且更稳定的训练消耗（每批次17,529±1,650个数据点和每批次6,573±147.43秒），改进的可扩展性和解释性，以及在多个目标上可比的性能。