LLM2D
MedHallBench: 一个新的评估医疗大型语言模型幻觉的基准
MedHallBench: A New Benchmark for Assessing Hallucination in Medical Large Language Models
作者: Kaiwen Zuo, Yirui Jiang
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2412.18947v4

摘要

arXiv:2412.18947v4 宣传类型: 替换-交叉 摘要:医学大型语言模型(MLLMs)在医疗应用方面展现了潜在价值,但它们生成医学上不可信或不准确信息的能力——即幻觉——对患者护理构成了重大风险。本文介绍了一套名为MedHallBench的全面基准框架,用于评估和缓解MLLMs中的幻觉。我们的方法将经过专家验证的医学案例场景与现有医学数据库结合,以创建一个强大的评估数据集。该框架采用了一种复杂的度量系统,结合了自动ACHMI(医学影像中的自动幻视分标题测量)评分与严格的临床专家评估,并利用强化学习方法实现自动注释。通过专门为医学应用设计的优化强化学习从人类反馈(RLHF)训练管道,MedHallBench能够在严格准确标准的同时,对MLLMs在多种临床背景下进行全面评估。我们进行了涉及多种模型的比较实验,利用基准建立了广泛采用的大型语言模型(LLMs)的基础。我们的研究结果表明,ACHMI相比传统指标提供了更细致的幻视效应对比理解,从而突显了其在评估幻视方面的优势。这项研究为提高MLLMs在医疗环境中的可靠性奠定了基础框架,并提出了应对医学应用中AI幻觉的行动策略。