摘要
大型语言模型 (LLM) 在代码生成等复杂分析任务中已取代了传统方法,通常的做法是在模型的上下文窗口内对整个任务的解决方案进行采样。先前的工作表明,在模型的上下文内进行子任务分解(思维链)有利于解决此类任务。在本研究中,我们指出了 LLM 在同一上下文窗口内执行多个子任务的能力的局限性 - 上下文内组合的难度,这表明将分解后的问题分布在多个 LLM 代理系统中具有优势。组合的难度通过生成复杂度指标来量化,即采样至少一个正确解决方案所需的 LLM 生成次数。我们发现,在同一上下文内解决组合问题的生成复杂度与将其分布在多个代理之间相比存在差距,并且该差距随着解决方案长度呈指数增长。我们从理论上证明了我们的结果,并在经验上进行了验证。