LLM2D

摘要

迭代人类参与是利用大型语言模型（LLMs）高级语言处理能力的常见且有效手段。通过在对话中使用结构良好的提示，人类用户可以有效影响LLM，使其生成更具思考性和准确性的响应。受此启发，我们提出了“思维迭代”（IoT）框架，通过生成“启发性”提示来增强LLM的响应，这些提示基于输入查询和LLM当前迭代的响应。与静态或半静态方法（如思维链（CoT）或思维树（ToT））不同，IoT根据不断演变的上下文动态调整其推理路径，且不会生成最终被丢弃的替代探索性思维。IoT框架的三个组成部分是：（1）负责生成具有指导性、上下文特定提示的内部对话代理（IDA）；（2）处理这些提示以优化其响应的LLM代理（LLMA）；（3）实现前两个组件之间对话的迭代提示循环。我们介绍了框架的两个变体：自主思维迭代（AIoT），其中LLM决定何时停止迭代；以及强制固定迭代次数的引导思维迭代（GIoT）。我们在多个数据集上研究了IoT的性能，涵盖从GPQA数据集的复杂推理任务、24点游戏的探索性问题解决、Mini Crosswords的谜题解决，到HotpotQA数据集的多跳问答。结果表明，IoT代表了LLM自主响应优化的可行范式，显著优于CoT，从而实现了更具适应性和效率的推理系统，最大限度地减少了人类干预。