LLM2D
思想的审判:大型语言模型中的二元逻辑推理法庭
Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models
作者: Sungjune Park, Daeseon Choi
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.16635v1

摘要

本文提出了一种名为“思想判断”(JoT)的新颖提示工程技术,专门针对二元逻辑推理任务。JoT 采用三种角色——律师、检察官和法官——来帮助模型进行更可靠、更准确的推理。在这个框架中,法官使用高级模型,而律师和检察官使用低级模型。这种结构有助于法官更好地理解律师和检察官的回应,从而做出更准确的判断。在大型语言模型 (LLM) 基准数据集(如 BigBenchHard 和 Winogrande)上的实验结果表明,在二元逻辑推理任务中,JoT 的性能优于现有方法,包括思维链 (CoT) 和自一致性 (SC)。此外,在现实世界任务中,如假新闻检测和短信垃圾邮件检测,JoT 表现出与现有技术相当或更好的性能。JoT 显着提高了模型在二元推理任务中的准确性和可靠性,并显示出在各个领域实际应用的潜力。未来的研究应旨在进一步拓宽 JoT 的适用范围,并优化其在现实世界问题解决中的实施。