LLM2D

摘要

arXiv:2502.10762v1 Announce Type: cross 摘要：用户的信息需求往往是高度多样化和多变的。当前研究中的一个关键挑战是如何在实现可控的多目标生成的同时，快速适应测试时的多样化用户需求。现有的解决方案，如Rewarded Soup，专注于合并单个目标调优的语言模型。尽管实现简单且广泛使用，但这些方法由于忽视了竞争目标对模型调优的影响，因此难以达到最优性能。为了解决这个问题，我们提出了一种名为Bone Soup的新型模型合并方法，首先通过考虑多个目标的影响来寻求一系列主干模型，然后将这些主干模型合并（即，合并主干模型）。具体而言，Bone Soup首先使用多目标强化学习训练多个针对不同目标的主干模型。每个主干模型都由一组主干奖励信号引导。为了确保这些模型对帕累托前沿的最优性，主干奖励通过将标准奖励函数组合成基向量来构建，这些基向量可以通过基于规则的方法进行修改。Bone Soup利用对称循环矩阵映射生成融合系数，根据用户偏好将主干模型合并。广泛的实验证明，Bone Soup在可控的多目标生成中表现出强大的可控性和帕累托最优性，提供了一种更有效和高效的解决方案，以在测试时满足多样的用户需求。