摘要
目前,有超过一千种多用途的大型语言模型(LLM),能够执行包括问答、文本摘要、内容生成等在内的现实任务。然而,自由模型的可访问性、规模和可靠性限制了它们在日常使用中的广泛部署。为了解决访问和规模这两个问题,HuggingFace等组织创建了模型仓库,用户可以在其中上传使用不同范式训练的模型权重和量化版本,以及描述其训练过程的模型卡。虽然一些模型在常用基准测试中报告了性能,但并非所有模型都这样做,解释在基准测试中权衡性能与模型部署成本的实际影响并不明确。我们在此展示,通过智能路由器,一群开源模型可以匹敌或超越专有模型的性能。我们展示了一群开源模型能够匹敌ChatGPT的准确性,尽管这些模型的规模实际上要小2.5倍。我们还展示了在GPT无法回答查询的情况下,Herd至少在40%的时间里能够识别出可以回答的模型。