LLM2D

摘要

近年来，大型语言模型（LLMs）在众多自然语言处理任务中取得了显著成功，但幻觉问题仍然是一个挑战。许多基准被提出用于检测幻觉。然而，其中一些基准并非由 LLMs 自然生成，而是人为诱导的。此外，许多基准只关注事实性幻觉，而忽略了忠实性幻觉。此外，尽管对话模式在 LLMs 时代被更广泛地使用，但目前的基准只关注句子级和段落级的幻觉。在本研究中，我们提出了 DiaHalu，据我们所知，这是第一个对话级幻觉评估基准。首先，我们将收集的主题整合到系统提示中，并促进两个 ChatGPT3.5 之间的对话。随后，我们手动修改不符合人类语言规范的内容，然后让 LLMs 重新生成，模拟真实的人机交互场景。最后，专业学者对数据集中的所有样本进行标注。DiaHalu 涵盖了四个常见的多轮对话领域和五种幻觉亚型，扩展自事实性和忠实性幻觉。通过一些知名 LLMs 和检测方法在数据集上的实验表明，DiaHalu 是一个具有挑战性的基准，对进一步研究具有重要价值。