LLM2D

摘要

arXiv:2412.18947v4 宣传类型: 替换-交叉摘要：医学大型语言模型（MLLMs）在医疗应用方面展现了潜在价值，但它们生成医学上不可信或不准确信息的能力——即幻觉——对患者护理构成了重大风险。本文介绍了一套名为MedHallBench的全面基准框架，用于评估和缓解MLLMs中的幻觉。我们的方法将经过专家验证的医学案例场景与现有医学数据库结合，以创建一个强大的评估数据集。该框架采用了一种复杂的度量系统，结合了自动ACHMI（医学影像中的自动幻视分标题测量）评分与严格的临床专家评估，并利用强化学习方法实现自动注释。通过专门为医学应用设计的优化强化学习从人类反馈（RLHF）训练管道，MedHallBench能够在严格准确标准的同时，对MLLMs在多种临床背景下进行全面评估。我们进行了涉及多种模型的比较实验，利用基准建立了广泛采用的大型语言模型（LLMs）的基础。我们的研究结果表明，ACHMI相比传统指标提供了更细致的幻视效应对比理解，从而突显了其在评估幻视方面的优势。这项研究为提高MLLMs在医疗环境中的可靠性奠定了基础框架，并提出了应对医学应用中AI幻觉的行动策略。