LLM2D

摘要

arXiv:2502.14815v1 通知类型: 新摘要: 结合了多个LLM调用的复合AI系统，例如自我精炼和多智能体辩论，在许多AI任务中表现出色。我们针对复合系统优化中的一个核心问题：对于系统中的每个LLM调用或模块，应该如何决定使用哪个LLM？我们表明，这些LLM的选择对质量有重大影响，但搜索空间是指数级的。我们提出了LLMSelector，这是一种在复合系统中进行模型选择的有效框架，它利用了两个关键的经验洞察：(i) 在其他模块保持不变的情况下，端到端性能通常随着每个模块性能的提高而单调增加；(ii) 模块级别的性能可以通过一个LLM进行准确估算。基于这些洞察，LLMSelector迭代地选择一个模块，并将其分配给由LLM估计的模块级别性能最高的模型，直到无法再获得改进为止。LLMSelector适用于具有限定模块数的任何复合系统，其API调用次数与模块数量成线性关系，从经验上和理论上都能实现高质量模型分配。使用GPT-4o、Claude 3.5 Sonnet和Gemini 1.5等LLM进行多智能体辩论和自我精炼等流行复合系统的实验表明，与所有模块使用相同的LLM相比，LLMSelector能够获得5%-70%的准确性提升。