LLM2D

摘要

arXiv:2505.02579v1 宣告类型: cross 摘要: 近期在大规模语言模型（LLM）微调中的强化学习（RL）进展显示出了在解决多目标任务方面的潜力，但仍面临着重大挑战，包括复杂的多目标平衡、低训练效率、较差的扩展性和有限的可解释性。利用集成学习的原则，我们引入了一种集成多目标RL（EMORL）框架，该框架在训练过程中对多个模型进行微调，然后优化它们的聚合，以提高效率和灵活性。我们的方法首次结合了单个模型的最后一层隐藏状态，并纳入了多个目标的上下文信息。该方法通过层次网格搜索算法来识别最优加权组合。我们在咨询师反思生成任务上评估了EMORL，使用文本评分LLM来评估生成物并在RL微调过程中提供奖励。通过在PAIR和Psych8k数据集上的全面实验，我们展示了EMORL相对于现有基线的优势：显著更低且更稳定的训练消耗（17,529±1,650个数据点和6,573±147.43秒），改进的可扩展性和可解释性，以及在多个目标上的可比较性能。