摘要
arXiv:2502.14302v1 类别: cross
摘要: 大型语言模型(LLMs)的进步及其在医疗服务问答中的日益广泛应用,需要对其可靠性的严格评估。其中一个关键挑战是幻觉现象,即模型生成看似合理但实际上不正确的输出。在医疗领域,这会严重威胁患者的医疗安全和临床决策。为了解决这个问题,我们提出了MedHallu,这是第一个专门针对医疗幻觉检测的基准测试。MedHallu包含从PubMedQA中抽取的10,000个多质询-回答对,这些回答是通过受控管道系统性生成的。我们的实验表明,最先进的LLMs,包括GPT-4o、Llama-3.1和医学微调的UltraMedical,在这种二元幻觉检测任务中表现不佳,最好的模型在检测“硬”类别幻觉时的F1分数仅为0.625。利用双向蕴含聚类,我们证明了更难检测的幻觉在语义上与事实更接近。通过实验,我们还展示了引入领域特定知识并引入“不确定”类别作为回答类别之一,可以将精确度和F1分数相对基线提高高达38%。