摘要
迭代人类参与是利用大型语言模型(LLMs)高级语言处理能力的常见且有效手段。通过在对话中使用结构良好的提示,人类用户可以有效影响LLM,使其生成更具思考性和准确性的响应。受此启发,我们提出了“思维迭代”(IoT)框架,通过生成“启发性”提示来增强LLM的响应,这些提示基于输入查询和LLM当前迭代的响应。与静态或半静态方法(如思维链(CoT)或思维树(ToT))不同,IoT根据不断演变的上下文动态调整其推理路径,且不会生成最终被丢弃的替代探索性思维。IoT框架的三个组成部分是:(1)负责生成具有指导性、上下文特定提示的内部对话代理(IDA);(2)处理这些提示以优化其响应的LLM代理(LLMA);(3)实现前两个组件之间对话的迭代提示循环。我们介绍了框架的两个变体:自主思维迭代(AIoT),其中LLM决定何时停止迭代;以及强制固定迭代次数的引导思维迭代(GIoT)。我们在多个数据集上研究了IoT的性能,涵盖从GPQA数据集的复杂推理任务、24点游戏的探索性问题解决、Mini Crosswords的谜题解决,到HotpotQA数据集的多跳问答。结果表明,IoT代表了LLM自主响应优化的可行范式,显著优于CoT,从而实现了更具适应性和效率的推理系统,最大限度地减少了人类干预。