摘要
arXiv:2410.02892v2 宣告类型: 修改
摘要:大规模语言模型(LLMs)在推理任务中展示了令人印象深刻的性能,但它们对静态提示结构的依赖以及在复杂场景中的适应性有限仍然是一个重大挑战。在本文中,我们提出了演绎与归纳(DID)方法,这是一种新颖的框架,通过动态整合演绎和归纳推理方法来增强LLM的推理能力。DID借鉴了认知科学的原则,实施了一种结合Littlestone维度和信息熵的双重复杂性评估系统,以精确评估任务难度并指导分解策略。DID使模型能够根据问题复杂性逐步适应其推理路径,模仿人类的认知过程。我们通过多个基准测试对DID的有效性进行了评估,包括AIW和MR-GSM8K基准,以及我们自定义的节假日谜题数据集,用于时间推理。我们的结果表明,在推理质量和解题准确性方面取得了显著改进——在AIW上达到70.3%的准确率(相比之下,树思考法为62.2%),同时保持了较低的计算成本。DID在提高LLM性能的同时保持计算效率的成功,表明了开发更具认知对齐能力和语言模型的有前景方向。我们的工作贡献了一种理论基础坚实的、基于输入的方法,以增强LLM的推理能力,提供了传统输出探索方法的高效替代方案。