摘要
arXiv:2502.10762v1 Announce Type: cross
摘要:用户的信息需求往往是高度多样化和多变的。当前研究中的一个关键挑战是如何在实现可控的多目标生成的同时,快速适应测试时的多样化用户需求。现有的解决方案,如Rewarded Soup,专注于合并单个目标调优的语言模型。尽管实现简单且广泛使用,但这些方法由于忽视了竞争目标对模型调优的影响,因此难以达到最优性能。为了解决这个问题,我们提出了一种名为Bone Soup的新型模型合并方法,首先通过考虑多个目标的影响来寻求一系列主干模型,然后将这些主干模型合并(即,合并主干模型)。具体而言,Bone Soup首先使用多目标强化学习训练多个针对不同目标的主干模型。每个主干模型都由一组主干奖励信号引导。为了确保这些模型对帕累托前沿的最优性,主干奖励通过将标准奖励函数组合成基向量来构建,这些基向量可以通过基于规则的方法进行修改。Bone Soup利用对称循环矩阵映射生成融合系数,根据用户偏好将主干模型合并。广泛的实验证明,Bone Soup在可控的多目标生成中表现出强大的可控性和帕累托最优性,提供了一种更有效和高效的解决方案,以在测试时满足多样的用户需求。