LLM2D

摘要

arXiv:2502.14302v1 类别: cross 摘要: 大型语言模型（LLMs）的进步及其在医疗服务问答中的日益广泛应用，需要对其可靠性的严格评估。其中一个关键挑战是幻觉现象，即模型生成看似合理但实际上不正确的输出。在医疗领域，这会严重威胁患者的医疗安全和临床决策。为了解决这个问题，我们提出了MedHallu，这是第一个专门针对医疗幻觉检测的基准测试。MedHallu包含从PubMedQA中抽取的10,000个多质询-回答对，这些回答是通过受控管道系统性生成的。我们的实验表明，最先进的LLMs，包括GPT-4o、Llama-3.1和医学微调的UltraMedical，在这种二元幻觉检测任务中表现不佳，最好的模型在检测“硬”类别幻觉时的F1分数仅为0.625。利用双向蕴含聚类，我们证明了更难检测的幻觉在语义上与事实更接近。通过实验，我们还展示了引入领域特定知识并引入“不确定”类别作为回答类别之一，可以将精确度和F1分数相对基线提高高达38%。