摘要
大型语言模型(LLMs)在自然语言处理任务中取得了显著进展,但它们容易生成不准确或不可靠的响应,这种现象被称为幻觉。在医疗和健康等关键领域,这些幻觉可能带来严重风险。本文介绍了HALO,一种新颖的框架,旨在通过专注于幻觉的检测和缓解,提高医疗问答(QA)系统的准确性和可靠性。我们的方法利用LLMs生成给定查询的多个变体,并从外部开放知识库中检索相关信息以丰富上下文。我们使用最大边际相关性评分来优先处理检索到的上下文,然后将其提供给LLMs以生成答案,从而降低幻觉风险。LangChain的集成进一步简化了这一过程,显著且稳健地提高了开源和商业LLMs(如Llama-3.1从44%提升至65%,ChatGPT从56%提升至70%)的准确性。该框架强调了在医疗QA系统中解决幻觉问题的关键重要性,最终改善临床决策和患者护理。开源HALO可在以下网址获取:https://github.com/ResponsibleAILab/HALO。