LLM2D

摘要

本文提出了一种名为“思想判断”（JoT）的新颖提示工程技术，专门针对二元逻辑推理任务。JoT 采用三种角色——律师、检察官和法官——来帮助模型进行更可靠、更准确的推理。在这个框架中，法官使用高级模型，而律师和检察官使用低级模型。这种结构有助于法官更好地理解律师和检察官的回应，从而做出更准确的判断。在大型语言模型 (LLM) 基准数据集（如 BigBenchHard 和 Winogrande）上的实验结果表明，在二元逻辑推理任务中，JoT 的性能优于现有方法，包括思维链 (CoT) 和自一致性 (SC)。此外，在现实世界任务中，如假新闻检测和短信垃圾邮件检测，JoT 表现出与现有技术相当或更好的性能。JoT 显着提高了模型在二元推理任务中的准确性和可靠性，并显示出在各个领域实际应用的潜力。未来的研究应旨在进一步拓宽 JoT 的适用范围，并优化其在现实世界问题解决中的实施。