LLM2D
Archon:一种用于推理时技术的架构搜索框架
Archon: An Architecture Search Framework for Inference-Time Techniques
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.15254v1

摘要

大型语言模型(LLM)的推理时技术正成为提升模型能力的高效工具。然而,对于如何开发结合推理时技术与一个或多个LLM的系统,仍缺乏最佳实践的理解,面临的挑战包括:(1)有效分配推理计算预算,(2)理解不同推理时技术组合间的相互作用及其对下游性能的影响,以及(3)高效搜索模型选择、推理时技术及其组合的广阔空间。为应对这些挑战,我们提出了Archon,一个用于设计推理时架构的自动化框架。Archon定义了一个可扩展的设计空间,涵盖生成集成、多采样、排序、融合、批判、验证和单元测试等方法。它将选择和组合LLM与推理时技术的问题转化为超参数优化目标。为优化这一目标,我们引入了自动化推理时架构搜索(ITAS)算法。在给定目标基准、推理计算预算和可用LLM的情况下,ITAS输出优化的架构。我们在广泛的指令跟随和推理基准上评估Archon架构,包括MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH和CodeContests。结果显示,Archon自动设计的推理时架构在这些基准上优于GPT-4o和Claude 3.5 Sonnet等强模型,全源模型和开源模型的平均提升分别为14.1和10.3个百分点。我们在Github上公开了代码和数据集:https://github.com/ScalingIntelligence/Archon。