LLM2D
RouterDC:基于双重对比学习的大语言模型组装查询路由器
RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models
作者: Shuhao Chen, Weisen Jiang, Baijiong Lin, James T. Kwok, Yu Zhang
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.19886v1

摘要

近年来,研究表明,组装多个现成的预训练大语言模型 (LLM) 可以利用其互补能力。为了实现这一点,路由是一种很有前景的方法,它学习一个路由器来为每个查询选择最合适的 LLM。然而,现有的路由模型在多个 LLM 对查询表现良好的情况下效率低下。为了解决这个问题,本文提出了一种名为基于查询的双重对比学习路由器 (RouterDC) 的方法。RouterDC 模型包含一个编码器和 LLM 嵌入,并提出了两种对比学习损失来训练 RouterDC 模型。实验结果表明,RouterDC 在组装 LLM 方面非常有效,并且在分布内 (+2.76%) 和分布外 (+1.90%) 任务上都大大优于单个表现最佳的 LLM 以及现有的路由方法。源代码可在 https://github.com/shuhao02/RouterDC 获取。