摘要
大型语言模型(LLMs)在语言理解和生成方面展现出非凡的能力,但这并不意味着它们不会产生幻觉。LLMs 仍然可能生成听起来合理但事实上不正确或虚构的信息。随着 LLM 驱动的聊天机器人的普及,普通人可能会经常询问与健康相关的问题,并可能成为这些 LLM 幻觉的受害者,从而导致各种社会和医疗保健影响。在本研究中,我们对 LLM 生成的对患者真实世界医疗保健查询的响应中的幻觉进行了开创性的研究。我们提出了 MedHalu,这是一个精心制作的、首创的医疗幻觉数据集,涵盖各种与健康相关的主题,以及 LLM 生成的相应幻觉响应,并对幻觉类型和幻觉文本范围进行了标记。我们还介绍了 MedHaluDetect 框架,用于评估各种 LLM 在检测幻觉方面的能力。我们还招募了三组评估者——医疗专家、LLM 和普通人——来研究谁更容易受到这些医疗幻觉的影响。我们发现,LLMs 比专家差得多。它们在检测幻觉方面也没有比普通人好,甚至在少数情况下表现更差。为了填补这一差距,我们提出了一种专家参与回路方法,通过注入专家推理来提高 LLM 的幻觉检测能力。我们观察到所有 LLM 的性能都有显著提高,GPT-4 的平均宏观 F1 提升了 6.3 个百分点。