LLM2D

摘要

大型语言模型（LLMs）在自然语言处理任务中取得了显著进展，但它们容易生成不准确或不可靠的响应，这种现象被称为幻觉。在医疗和健康等关键领域，这些幻觉可能带来严重风险。本文介绍了HALO，一种新颖的框架，旨在通过专注于幻觉的检测和缓解，提高医疗问答（QA）系统的准确性和可靠性。我们的方法利用LLMs生成给定查询的多个变体，并从外部开放知识库中检索相关信息以丰富上下文。我们使用最大边际相关性评分来优先处理检索到的上下文，然后将其提供给LLMs以生成答案，从而降低幻觉风险。LangChain的集成进一步简化了这一过程，显著且稳健地提高了开源和商业LLMs（如Llama-3.1从44%提升至65%，ChatGPT从56%提升至70%）的准确性。该框架强调了在医疗QA系统中解决幻觉问题的关键重要性，最终改善临床决策和患者护理。开源HALO可在以下网址获取：https://github.com/ResponsibleAILab/HALO。