LLM2D

摘要

目前，有超过一千种多用途的大型语言模型（LLM），能够执行包括问答、文本摘要、内容生成等在内的现实任务。然而，自由模型的可访问性、规模和可靠性限制了它们在日常使用中的广泛部署。为了解决访问和规模这两个问题，HuggingFace等组织创建了模型仓库，用户可以在其中上传使用不同范式训练的模型权重和量化版本，以及描述其训练过程的模型卡。虽然一些模型在常用基准测试中报告了性能，但并非所有模型都这样做，解释在基准测试中权衡性能与模型部署成本的实际影响并不明确。我们在此展示，通过智能路由器，一群开源模型可以匹敌或超越专有模型的性能。我们展示了一群开源模型能够匹敌ChatGPT的准确性，尽管这些模型的规模实际上要小2.5倍。我们还展示了在GPT无法回答查询的情况下，Herd至少在40%的时间里能够识别出可以回答的模型。