LLM2D

摘要

arXiv:2503.23363v1 通知类型: 新摘要: 大型语言模型（LLMs）的进步极大地提高了我们处理复杂语言的能力。然而，准确检测逻辑谬误仍然是一个重大的挑战。本研究提出了一种新颖且有效的提示形式化方法，适用于监督（微调）和无监督（零样本）设置中的逻辑谬误检测。我们的方法通过整合输入文本中的隐含上下文信息——反论、解释和目标——查询这些信息在论点背景下的有效性。然后，根据置信度分数对这些查询进行排序，以指导分类。我们利用GPT和LLaMA系列的模型，在5个领域的多个数据集中评估了我们的方法，涵盖了29种不同的谬误类型。结果显示，在零样本设置中，F1分数提高了最高达0.60，在微调模型中提高了最高达0.45。进一步的分析详细解释了为什么以及我们的方法如何表现出色。