LLM2D

摘要

大型语言模型（LLM）的推理时技术正成为提升模型能力的高效工具。然而，对于如何开发结合推理时技术与一个或多个LLM的系统，仍缺乏最佳实践的理解，面临的挑战包括：（1）有效分配推理计算预算，（2）理解不同推理时技术组合间的相互作用及其对下游性能的影响，以及（3）高效搜索模型选择、推理时技术及其组合的广阔空间。为应对这些挑战，我们提出了Archon，一个用于设计推理时架构的自动化框架。Archon定义了一个可扩展的设计空间，涵盖生成集成、多采样、排序、融合、批判、验证和单元测试等方法。它将选择和组合LLM与推理时技术的问题转化为超参数优化目标。为优化这一目标，我们引入了自动化推理时架构搜索（ITAS）算法。在给定目标基准、推理计算预算和可用LLM的情况下，ITAS输出优化的架构。我们在广泛的指令跟随和推理基准上评估Archon架构，包括MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH和CodeContests。结果显示，Archon自动设计的推理时架构在这些基准上优于GPT-4o和Claude 3.5 Sonnet等强模型，全源模型和开源模型的平均提升分别为14.1和10.3个百分点。我们在Github上公开了代码和数据集：https://github.com/ScalingIntelligence/Archon。