LLM2D
反转思维:通过偏好引导的反向推理预热增强大型语言模型
Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up
作者: Jiahao Yuan, Dehui Du, Hao Zhang, Zixiang Di, Usman Naseem
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2410.12323v2

摘要

arXiv:2410.12323v2 通知类型: 替换-交叉 摘要:大型语言模型(LLMs)在推理任务中表现出色,但在数学和复杂逻辑推理方面存在局限性。提高LLMs逻辑能力的现有方法要么通过可追踪或可验证的逻辑序列生成更可靠的回答,这些序列通过构建逻辑结构来提高可靠性,但增加了计算成本,要么引入了严格的逻辑模板规则,降低了灵活性。在本文中,我们提出了一种称为思维反转(RoT)的即插即用且成本效益高的推理框架,旨在增强LLMs在批量推理前的暖启动阶段的逻辑推理能力。RoT 利用了一种基于偏好导向的逆向推理预热策略,该策略通过元认知机制整合了逻辑符号进行伪代码规划,并通过成对偏好自我评估生成针对特定任务的提示,这些提示仅通过演示生成,符合由RLHF塑造的LLMs的认知偏好。通过逆向推理,我们利用认知偏好管理器评估知识边界,并进一步通过聚合已知任务的解决方案逻辑和未知任务的风格模板来扩展LLMs的推理能力。在各种任务上的实验表明,RoT 在逻辑推理准确性和效率方面均优于现有基线。