摘要
arXiv:2408.03618v3 通知类型: 替换-交叉
摘要:尽管在自然语言处理任务中大型语言模型(LLMs)取得了显著的性能,但它们 stil l在生成合乎逻辑的论据方面遇到困难,导致传播虚假信息等潜在风险。为了解决这一问题,我们引入了FIPO,这是一个基于谬误信息的框架,利用偏好优化方法引导LLMs生成合乎逻辑的论据。FIPO包括一个分类损失,以捕捉各种谬误类型的细粒度信息。我们的实验结果表明,该方法可以将谬误错误减少高达17.5%。此外,我们的手工评估结果表明,该方法生成的论据质量显著优于微调基线以及其他偏好优化方法(如DPO)。这些发现突显了确保模型了解逻辑谬误对于有效论据生成的重要性。我们的代码可以在github.com/lucamouchel/Logical-Fallacies获得。